AIGC每日新闻

输入“/”快速插入内容

📰
AIGC每日新闻

用户8934

用户1341

用户2838

用户7947

2024年10月6日修改

10月6日

【Depth Pro：无需额外信息即可快速生成高清深度图】

苹果公司研发了一种名为Depth Pro的深度估计模型，它能够快速、精准地生成高分辨率的深度图，图像细节清晰锐利，且具有绝对尺度（无需相机参数等元数据）。该模型利用多尺度视觉Transformer等技术，结合真实和合成数据集进行训练，并在标准GPU上仅需0.3秒即可生成225万像素的深度图。实验表明，Depth Pro在多个维度上都超越了现有技术。参考博客链接:https://arxiv.org/abs/2410.02073

【高效训练大型语言模型的新方法：VinePPO】

大型语言模型在复杂推理任务中表现欠佳，原因在于现有的训练方法（例如PPO）难以准确评估每个步骤的贡献。本文发现，PPO中使用的价值网络在预测累积奖励方面存在缺陷，导致训练效率低。为此，研究者提出了一种新方法VinePPO，它巧妙地利用语言环境进行无偏估计，避免了对大型价值网络的依赖。实验结果表明，VinePPO在数学和科学推理任务上显著优于现有方法，并且训练速度更快、效率更高。参考博客链接:https://arxiv.org/abs/2410.01679

【AI秒速建模：3DTopia-XL来了！】

上海人工智能实验室和南洋理工大学合作研发了一个超厉害的AI建模工具——3DTopia-XL。它只需5秒钟就能根据图片或文字生成高质量的3D模型，材质逼真，就像手工打造的一样！这个模型体积庞大（10亿参数），速度飞快，生成的3D模型可以直接用在游戏和设计软件里。更重要的是，它的代码、模型和技术报告都已公开，方便大家一起学习和使用！

参考博客链接:https://www.jiqizhixin.com/articles/2024-10-04

10月5日

【Meta进军AI与AR新时代】Meta Connect 2024发布会上，Meta重磅推出性能强大的Llama 3.2多模态AI模型，并将其整合进旗下应用，大胆尝试AI生成内容。同时，他们展示了令人惊艳的AR眼镜Orion，虽然暂未发售，但解决了现有AR设备的诸多难题。雷朋Meta眼镜和Quest 3S也获得升级，进一步完善了Meta的AI和AR生态系统，展现了Meta争夺下一代平台入口的野心。

参考博客链接:https://mp.weixin.qq.com/s/wnvVh5Sy4AwDFSyPQ9d9wQ

【SonicSim：更真实的语音分离与增强合成数据集】

现有语音分离和增强模型训练数据不足，真实数据集规模小，合成数据集不够真实。研究人员开发了SonicSim工具包，它基于Habitat-sim平台，能生成高度可定制的移动声源数据，并构建了名为SonicSet的基准数据集。通过与真实数据集对比，结果表明SonicSim生成的合成数据能有效地泛化到真实场景中，解决了数据不足的问题。代码和演示已公开发布。参考博客链接:https://arxiv.org/abs/2410.01481

【即梦AI：AI音乐创作与MV制作新突破】

即梦AI平台最新上线了音乐创作功能，并发布了由AI创作的歌曲《散落时光》及其MV。这首歌和MV质量都得到了好评。尤其值得一提的是，用于制作MV的S模型在竖版视频生成方面表现卓越，生成的视频质量远超横版视频，色彩和风格也更统一，优于其他同类模型。这标志着AI在音乐创作和视频制作领域取得了新的进展。

参考博客链接:https://mp.weixin.qq.com/s/7MwT6qxTSCM_T1uSRs0wAA

10月4日

【高效注意力机制量化：SageAttention】

当前许多AI模型都依赖于Transformer架构，而其中的注意力机制计算量巨大，尤其在处理长序列时。现有模型加速方法主要针对线性层，忽略了注意力机制。本文提出了SageAttention，一种高效且准确的注意力机制量化方法。实验表明，SageAttention的速度比FlashAttention2和xformers分别快2.1倍和2.7倍，且精度优于FlashAttention3，在各种模型（包括大语言模型、图像生成和视频生成模型）上几乎没有精度损失。参考博客链接:https://arxiv.org/abs/2410.02367

【ChatGPT新界面Canvas：AI写作编程助手】

OpenAI发布了ChatGPT的新界面Canvas，它就像一个智能写作和编程助手！由强大的GPT-4驱动，Canvas能帮你润色文章、调整文本长度和难度，甚至还能帮你写代码、检查bug，并支持代码语言转换。测试表明，用Canvas比传统方式效率更高，准确性和质量分别提升了30%和16%。目前Plus和Team用户可以使用，下周企业和教育用户也能用上，但现在使用条件比较严格，未来会改进。

参考博客链接:https://www.qbitai.com/2024/10/198190.html

【EmoKnob：赋予AI语音情感掌控力】

以往的AI语音合成虽然自然流畅，却无法随意控制语音的情感表达。EmoKnob框架改变了这一点！它只需少量示例就能学会合成各种情感的语音，并能根据文字描述生成特定情感的语音，例如“喜悦”、“悲伤”等，且情感表达比市面上的语音合成服务更丰富、更准确。该框架还提出了一套新的评估标准，让AI语音情感合成领域的研究更规范化。简单来说，EmoKnob让AI语音更“懂”情感，也更“会”表达情感。参考博客链接:https://arxiv.org/abs/2410.00316

10月3日

【高效边缘计算：让700亿参数大模型在手机上运行】为了保护用户隐私，大型语言模型（LLM）的推理正从云端转向边缘设备（如手机）。但边缘设备资源有限，运行大型模型很困难。本文提出了一种名为TPI-LLM的系统，它巧妙地利用张量并行技术，高效地将700亿参数的模型部署到资源受限的设备上。TPI-LLM通过优化内存管理和通信策略，显著降低了模型运行时间和内存占用，使其在手机等设备上流畅运行，速度比现有方法快得多，内存占用少得多。参考博客链接:https://arxiv.org/abs/2410.00531

【Pika 1.5：史诗级AI视频生成升级】AI视频生成工具Pika发布了1.5版本，带来了令人惊叹的升级！它新增了“Pikaffects”特效功能，能轻松制作爆炸、融化等超现实效果，并支持更长视频和更丰富的动作捕捉，例如跑步、滑板等，让生成的视频更加生动。这次更新还让Pika获得了8000万美元B轮融资，估值翻倍，再次成为AI视频生成领域的佼佼者，甚至被用户誉为“史诗级”更新，特别是其强大的meme生成能力更是备受关注。参考博客链接:https://www.jiqizhixin.com/articles/2024-10-02-4

【OpenAI开发者大会：更便宜、更强大的AI工具】OpenAI的开发者大会没有发布令人惊艳的新产品，而是聚焦于提升现有AI工具和API。他们推出了四个新功能：实时API、视觉微调、提示缓存和模型蒸馏，让开发者能更轻松、更低成本地构建更强大的AI应用，比如低延迟的多模态应用。 OpenAI还宣布GPT模型成本显著下降，并表示距离通用人工智能（AGI）的目标更近一步，这标志着OpenAI战略转向，更重视支持开发者生态系统的发展。参考博客链接:https://www.jiqizhixin.com/articles/2024-10-02-3

10月2日

【AI赋能视频文档创作平台Guidde】

Guidde是一个利用AI技术快速创建视频文档的平台，可用于客户支持、培训等多种场景。它能帮助团队以11倍的速度制作出精美的操作指南、标准作业流程(SOP)、培训材料、入门文档、常见问题解答(FAQ)和功能说明等视频，告别枯燥的文本文档。Guidde已拥有6万多用户，并获得诸多好评，是Product Hunt评选的当日最佳产品。该平台提供免费扩展程序，无需信用卡即可注册使用。

参考博客链接:https://link.alphasignal.ai/EewE1c

【更省内存、更强能力的多模态AI模型诞生】

Liquid AI公司推出了一种名为Liquid Foundation Models (LFM) 的新型AI模型，它基于“液态神经网络”，在处理长序列数据和多模态信息（文字、声音、视频）方面比传统的Transformer模型更优秀，并且内存占用更低。这意味着LFM可以在相同的硬件上处理更复杂的任务，例如更长的文本或更精细的视频分析。目前该模型已开放部分接口，未来将有更多应用和技术细节公开。

参考博客链接:https://www.jiqizhixin.com/articles/2024-10-01

【灵巧机器手新突破：学会了“举一反三”抓东西】

国防科技大学和深圳大学的研究人员开发了一种能让机器人灵巧手更灵活抓取物体的新方法。它像人一样，分成了“想怎么抓”（高层）和“手怎么动”（低层）两个步骤，并且能将学习到的抓取技巧轻松迁移到不同类型的灵巧手上，就像人学会用左手也能熟练地完成右手的工作一样。这种方法在多个实验中都表现优异，比以前的方法更有效、更通用。这意味着未来机器人能更好地适应各种环境和任务，完成更复杂的操作。

参考博客链接:https://www.jiqizhixin.com/articles/2024-10-01-3

10月1日

【中国电信开源千亿参数大模型TeleChat2-115B】

中国电信人工智能研究院开源了首个央企千亿参数大模型TeleChat2-115B，并在多个评测中表现出色，尤其擅长长文本处理和数据分析。该模型的成功得益于中国电信在AI领域的长期投入、强大的研发团队和一系列国产化技术突破，例如高效的并行计算和模型优化技术。这标志着我国在大型语言模型领域取得了重要进展，并为国产AI发展树立了榜样。参考博客链接:https://www.qbitai.com/2024/10/197783.html

【PaperQA2：科研论文问答利器】

PaperQA2是一个用于高精度检索增强生成(RAG)的软件包，特别适用于科学文献。它能够对PDF或文本文件进行高效处理，实现问答、摘要和矛盾检测等功能，并在相关基准测试中超越了人类表现。PaperQA2提供简洁易用的接口，支持多种大型语言模型和嵌入模型，并具有强大的自定义功能和高效的索引机制，极大地方便了科研人员对科学文献的检索和分析。参考博客链接:https://link.alphasignal.ai/TqeHcC

【Flux图像生成模型微调教程】

最近发布的Flux图像生成模型质量超越现有开源模型，并支持便捷的微调功能。即使没有编程经验，你也可以通过Replicate平台，只需少量个人照片（至少10张，建议20张）和一个独特的触发词，就能创建专属的个性化模型，生成各种风格的图像，例如超级英雄、卡通人物等。整个过程简单易操作，费用低廉（约2美元），只需在Replicate平台上传照片、设置触发词，等待几分钟即可生成模型并开始创作。此外，还可以结合语言模型辅助创作更丰富的提示词，进一步提升图像生成效果。参考博客链接:https://link.alphasignal.ai/zATvad

9月30日

【NotebookLM升级：支持音频和YouTube】NotebookLM，一款帮你理解资料的AI工具，增加了对音频文件和YouTube视频的支持。现在你可以上传音频、视频，NotebookLM会自动生成摘要和笔记，并支持创建可分享的音频概述，方便团队协作和学习。这项更新让NotebookLM的功能更强大，使用也更便捷。参考博客链接:https://link.alphasignal.ai/KOLmOU

【AI智能体AGILE：比GPT-4更聪明的大语言模型助手】字节跳动研发了一种名为AGILE的AI智能体框架，它比单纯依靠提示词的GPT-4更强大。AGILE能记住之前的信息、使用工具、制定计划、自我反思，甚至会在需要时向人类专家求助。通过强化学习训练，130亿和70亿参数的AGILE模型在问答任务中都超过了GPT-4，展现了更高的准确性和更强的泛化能力。这标志着AI智能体朝着更自主、更可靠的方向发展。参考博客链接:https://www.jiqizhixin.com/articles/2024-09-30-4

【AI赋能价值观测量：新方法GPV】这篇论文介绍了一种利用大型语言模型（LLM）测量人类和AI价值观的新方法——生成式心理测量法(GPV)。GPV通过分析文本，识别个体或AI的价值观偏好。研究表明，GPV比传统心理工具更稳定、有效，还能用于测量LLM的价值观，并预测其安全性。这项工作融合了人工智能和心理学，为构建价值观对齐的AI提供了新的途径。参考博客链接:https://arxiv.org/abs/2409.12106

9月29日

【阿里巴巴通义千问大模型成绩亮眼】阿里巴巴的通义千问Qwen系列大模型在国际权威榜单上取得优异成绩，Qwen2.5-72B-Instruct成为榜单中唯一一个排名靠前的中国大模型。其开源版本下载量迅速突破150万，并在Hugging Face社区上拥有大量衍生模型，展现了中国大模型技术实力的显著提升和国际影响力。这标志着中国在开源大模型领域取得重大突破，并受到全球开发者的广泛认可。参考博客链接:https://www.qbitai.com/2024/09/197601.html

【ChatGPT语音模式全面升级】OpenAI终于向ChatGPT Plus和Team用户全面推出高级语音模式，该模式支持语音交互，并新增了自定义指令、记忆功能和五种新的语音风格。此前，该模式曾因安全测试和争议而推迟发布。此次升级不仅提升了语音的流畅度和准确性，还支持多种语言，展现了OpenAI在AI语音交互领域持续改进的努力，并与其他公司竞争AI语音助手市场。参考博客链接:https://link.alphasignal.ai/6LSm7l

【GitHub项目：PDF转音频】MIT的lamm团队在GitHub上发布了一个名为PDF2Audio的开源项目，该项目可以将PDF文件转换成音频文件。目前该项目在GitHub上已获得835星标和91个分支，拥有Apache-2.0许可证，这意味着它可以被自由使用和修改。这是一个方便用户获取PDF文件内容的工具，尤其对于视障人士或希望在通勤时收听文档的用户非常有用。参考博客链接:https://link.alphasignal.ai/fcfcI7

9月28日

【高效运行大型语言模型的AirLLM】AirLLM是一个优化推理内存使用的工具，能让70B参数的大型语言模型在单张4GB显卡上运行，无需量化、蒸馏和剪枝。最新版本更支持在8GB显卡上运行405B参数的Llama3.1模型。它支持多种主流模型，并提供模型压缩功能，可将推理速度提升3倍。AirLLM已支持MacOS系统，并提供多种配置选项，方便用户根据自身需求进行调整。该项目开源且持续更新，用户可通过GitHub获取。参考博客链接:https://link.alphasignal.ai/ydUMud

【提升Flux模型图像生成的技巧】文章介绍了三种提升Flux模型图像生成质量和多样性的方法：1. 使用“consistent-character”模型，从单张图片生成多种姿态和风格的训练数据；2. 利用模型自身生成的优质图片作为训练数据，迭代改进模型；3. 结合多个LoRA模型，丰富图像风格，再用生成的图像进行再训练。文章提供了代码示例，并强调实验和迭代的重要性，鼓励用户分享成果。参考博客链接:https://link.alphasignal.ai/L8C7Sn

【清华腾讯联合打造最强开源多模态模型Oryx】清华大学、腾讯和南洋理工大学合作研发了一个名为Oryx的强大AI模型。它能够理解图像、视频和3D场景等各种视觉信息，而且处理速度非常快，即使是超长视频也能轻松应对。Oryx的核心在于它能直接处理原始高清图像，并根据需要压缩信息，既保证了效率又保证了精度。在各种测试中，Oryx的表现非常出色，甚至超过了一些参数规模更大的模型，成为了目前开源多模态模型中的佼佼者，并且所有训练数据都公开透明，方便其他研究者使用和改进。参考博客链接:https://www.jiqizhixin.com/articles/2024-09-28

9月27日

【高效精准的数据检索：Structured-GraphRAG框架】

面对庞大复杂的数据，传统检索方法常常力不从心。这篇论文介绍了一种名为Structured-GraphRAG的新框架，它利用多个知识图谱来组织数据，并通过结构化的方式处理自然语言查询，从而更精准、高效地获取信息。相比传统方法，Structured-GraphRAG显著提升了查询效率和响应速度，降低了错误率，并在足球数据案例中得到了验证。该框架具有广泛的应用前景，可用于各种结构化数据的分析和语言模型的改进。参考博客链接:https://arxiv.org/abs/2409.17580

【AI芯片设计新突破：谷歌AlphaChip问世】

谷歌发布了AI芯片设计算法AlphaChip，它能快速高效地设计出媲美人类专家的芯片设计图，已用于谷歌及其他公司的芯片生产。AlphaChip利用深度强化学习技术，大幅提升了芯片设计速度和效率，其开源的预训练版本也方便其他开发者使用。这标志着AI辅助芯片设计成为新趋势，AI设计芯片，芯片又反过来加速AI发展，形成良性循环。虽然AlphaChip曾面临内部质疑，但最终其成功证明了AI在芯片设计领域的巨大潜力。参考博客链接:https://www.qbitai.com/2024/09/195826.html

【提升Flux模型图像生成的技巧】本文介绍了三种提升Flux模型图像生成质量的技巧：1. 利用单张图片生成多样化训练数据，例如使用consistent-character模型从一张人物照片生成不同姿态、风格和表情的图片；2. 使用模型自身生成的优秀图片作为新的训练数据，迭代优化模型；3. 结合多个LoRA模型（低秩自适应模型），生成风格多样化的图像，丰富训练数据集。通过这些技巧，可以提高Flux模型的准确性、多样性和风格范围，最终生成更优质的图像。参考博客链接:https://link.alphasignal.ai/L8C7Sn

9月26日

【Gemini 1.5模型重大更新】谷歌发布了Gemini 1.5 Pro-002和Gemini 1.5 Flash-002两个更新的生产就绪模型。这两个模型在速度、成本和性能方面都有显著提升：速度提升2倍，延迟降低3倍，价格降低50%以上，并且在数学、长文本处理和图像理解等方面都有了约20%的改进。同时，谷歌也提高了API的速率限制，并更新了安全过滤设置，让开发者更容易构建更安全可靠的应用。参考博客链接:https://link.alphasignal.ai/ErR5dU

【4GB显卡运行700亿参数大模型】研究人员在GitHub上发布了AirLLM项目，这是一个令人惊叹的成果：它能够在只有4GB显存的单一GPU上运行700亿参数的大型语言模型。这意味着即使是配置普通的电脑，也能体验强大的AI能力，极大地降低了AI应用的门槛。该项目在GitHub上已获得4.3k星，备受关注。参考博客链接:https://link.alphasignal.ai/ydUMud

【百度文心快码：AI编程助手赋能开发者】百度推出AI编程工具“文心快码”，已在百度内部广泛应用，提升了工程师效率。它能推荐、生成、审查和优化代码，帮助开发者提高编程速度和代码质量。文心快码已通过权威机构认证，并在近期进行了功能升级，未来将进一步推动编程自动化。百度专家将于9月27日直播讲解其最新进展及应用案例，展示AI技术如何赋能各行各业。参考博客链接:https://www.qbitai.com/2024/09/195529.html

9月25日

【Finegrain Box Segmenter: 高精度物体抠图新突破】Finegrain Box Segmenter 是一款基于MVANet的新型物体抠图模型，能够生成高质量的1024x1024分辨率抠图。与传统方法相比，它能够根据用户提供的边界框精准定位目标物体，并进行抠图。该模型在电商产品数据集上进行了训练，并在测试集中取得了优异的性能。它可用于各种物体操作任务，包括背景移除、背景替换、物体删除、物体重新着色等。目前该模型仍处于早期阶段，未来将进一步提高其准确性和功能。参考博客链接:https://link.alphasignal.ai/BUV1ey

【浩鲸科技推出“鲸智文档大模型”，助力企业实现文档智能化】浩鲸科技发布了专门针对企业文档场景的“鲸智文档大模型”，该模型集文档知识提取、检索、问答等功能于一体，可以帮助企业将文档转化为宝贵的知识资产。通过“DocChain”工具链，模型实现了文档的知识抽取、融合、推理和问答全流程覆盖，并提供软硬件一体机方案，助力企业快速部署和验证智慧文档处理服务。参考博客链接:https://www.jiqizhixin.com/articles/2024-09-25-2