腾讯 AI Lab 发布多模态音频生成工具 AudioGenie


腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统,为多模态到多音频(MM2MA)生成领域带来重大突破。

该系统能从视频、文本、图像等多模态输入中,精准合成音效、语音、音乐、歌曲等多种音频,有效解决了该领域长期面临的高质量配对数据稀缺、多任务学习框架薄弱等核心挑战。

AudioGenie 框架如下:

https://audiogenie.github.io/

AudioGenie 采用双层架构,由生成团队与监督团队组成。生成团队通过细粒度任务分解和自适应混合专家(MoE)协作机制,实现对多模态输入的深度理解与动态模型选择,并借助试错迭代优化模块完成自我修正;监督团队则通过反馈循环确保音频的时空一致性并验证输出质量。

此外,研究团队还构建了首个 MM2MA 任务基准数据集 MA-Bench,包含 198 个带多类型音频标注的视频。实验表明,AudioGenie 在 8 项任务的 9 个指标中均达到当前最优或可比性能,用户研究进一步证实其在音频质量、准确性、上下文对齐及美感上的显著优势,为跨模态音频生成应用开辟了新路径。


相關推薦

2025-05-10

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。HunyuanCustom 融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。 HunyuanCustom 整体架构

2025-06-04

多模态; 批量调用; 内置 RAG。(@elevenlabsio@X、@腾讯研究院、@海波学者聊 AI) 3、马斯克宣布推出 XChat,具备消息「阅后即焚」和无需电话号码即可使用的网络通话/视频功能   日前,马斯克宣布推出一款名为

2025-08-05

)、捏Ta(1个)、磐石(3个)、上海交通大学(1个)、腾讯(1个)、上海人工智能实验室(1个)、复旦大学(1个)。 1、阿里(9个):编程模型Qwen3-Coder-30B-A3B-Instruct、Qwen3-Coder-480B-A35B-Instruct,深度思考模型Qwen3-30B-A3B-Thinking-

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2025-08-08

小红书 Hi Lab 开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,

2025-08-14

Pika 发布了一款突破性的音频驱动视频生成模型(Audio-Driven Performance Model),能近乎实时地生成具有逼真表情和完美唇形同步的视频,速度提升 20 倍且成本大幅降低。 据介绍,该模型支持任意长度和风格的视频制作,并能

2025-05-23

腾讯混元宣布模型矩阵全面升级: 旗舰快思考模型混元TurboS、深度思考模型混元T1升级,并基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-06-20

值25亿美元,由阿里巴巴领投,此前融资的投资方也包括腾讯等。据媒体报道称,MiniMax的实际估值目前已经超过2024年所报道过的“25亿美元”。

2025-06-17

腾讯宣布正式启动算法大赛。 此次大赛,腾讯将提供基线模型与技术指导,帮助参赛学子直面工业级全模态数据难题(包含文本、视觉、协同 ID),综合运用多模态理解、序列决策、实时生成等多种分支技术,提升前沿 AI 系统

2025-06-08

内容传递更温暖共情;问答互动更自然流畅。(@AIMCP、@腾讯研究院) 2、肖像驱动框架 Playmate:趣丸研发新型人脸动画技术,声音+指令精准控制表情 趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate,该算法能够根据音频

2025-07-29

,前阿里通义实验室应用视觉团队负责人薄列峰确认加入腾讯混元大模型团队,直接向腾讯副总裁蒋杰汇报,负责多模态技术研发。 据悉,薄列峰于2025年4月30日从阿里离职,此前曾主导阿里图像与视频AIGC技术,包括“全民舞

2025-05-08

称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 薄列锋2007年博士毕业于西安电子科技大学,后来在芝加哥大学丰田研究院和华盛顿大学从事博士后研究,研究范围覆盖机器

2025-07-08

,将打破“静音画面”的想象力局限。 该模型首次把多模态大模型的思维链推理引入音频生成领域,让AI可以像专业音效师一样逐步思考,捕捉视觉细节,生成与画面同步的高保真音频。 目前,ThinkSound的代码和模型已在Github