阿里通义开源音频语言模型 Qwen2-Audio


通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点:

  • 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。
  • 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。
  • 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段,依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐,接着通过SFT(监督微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。

目前通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本 Qwen2-Audio-7B-Instruct。

  • https://huggingface.co/Qwen/Qwen2-Audio-7B
  • https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

相關推薦

2025-04-03

行了全面评估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。 在需要集成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2025-05-31

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。 为了解决「如何利用全景视频生成与之匹

2025-06-04

技术,可直接从 360° 视频生成 FOA 空间音频 5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。 为了解决「如何利用全景视频生成与之匹配的

2023-08-26

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/m

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2023-11-01

Android 版本),用户开始可以下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源

2025-05-08

知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 薄列锋2007年博士毕业于西安

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2025-03-25

国内 AI 图像创作平台 LiblibAI 近日宣布接入阿里通义系列大模型。 此次接入后,基于万相最新开源模型,LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词,或者上传图片,就能快速生成10秒短视频。这一功能的

2025-06-18

阿里通义千问团队宣布正式开源 Qwen3 全系列 32 款 MLX 量化模型。 MLX 是开源机器学习框架,专为苹果芯片深度适配。MLX 框架可高效地训练和部署 AI 大模型,被越来越多的 AI 开发者采用。   为更好服务开发者,通义团队推

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2025-06-11

阿里通义实验室发布并开源了 MaskSearch 预训练框架,声称能让 AI 学会“主动搜索 + 多步推理”,从而更准确、更智能地回答复杂问题。 根据介绍,MaskSearch 的核心在于它提出的一种全新预训练任务——检索增强掩码预测(RAMP

2023-09-14

多元共进|2023 Google 开发者大会精彩演讲回顾 阿里云9月13日宣布,通义千问大模型已首批通过备案,正式向公众开放。 用户可登录通义千问官网 (https://qianwen.aliyun.com) 体验,企业用户可以通过阿里云调用通义千问 API (https:/