Qwen3 技术报告发布,详细介绍模型架构、训练方法与评估结果


阿里巴巴正式发布了Qwen3系列大型语言模型的技术报告。报告详细阐述了Qwen3的模型架构、训练方法、数据处理、可扩展性以及全面的评估结果。

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

Qwen3系列包括Qwen3-0.5B、Qwen3-1.8B、Qwen3-4B、Qwen3-7B、Qwen3-14B、Qwen3-32B、Qwen3-72B等多种参数规模的模型,其中部分模型已开源。

报告指出,Qwen3的预训练分为三个阶段:

  1. 通用阶段(S1)在超过30万亿token上训练,序列长度4096,构建通用知识基础;
  2. 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力;
  3. 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长度从4096扩展到32768,并采用了ABF、YARN和DCA(Dual Chunk Attention)等技术,实现了推理时4倍序列长度的扩展。

Qwen3模型在多项基准测试中表现出色,包括自然语言理解、代码生成、数学推理和多语言能力。

例如,Qwen3-72B在MMLU、GSM8K、HumanEval等多个权威评测中取得了领先成绩。报告还强调了Qwen3在多模态能力、Agent能力以及与外部工具和API集成方面的进展。

此外,Qwen Chat在最新更新中上线了“深度研究”(Deep Research)功能,用户提出问题后,Qwen会引导用户明确研究方向,并在后台生成详细报告。


相關推薦

2025-05-23

阶段的 tokens 增训,以及后训练阶段引入长短思维链融合技术。 近日,腾讯混元 TurboS 发布了技术报告,其模型架构如下: 据介绍,腾讯混元 TurboS 核心创新体现在以下几个方面: 架构协同:巧妙地融合了Mamba架构处理长序

2025-06-11

、用于训练的数据、所采用的训练配方、用于优化推理的技术,以及与同类模型相比的评估结果。在整个过程中,我们强调了如何在设备和私有云计算上实现速度和效率的提升,同时扩展了能力并提高了质量。最后,在我们持续

2023-04-04

模型提供更好的响应。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下: Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更

2025-05-23

扩增的高效利用机制,限制了多样性生成与泛化训练。 技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型 EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。 ▍核

2025-04-30

2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。 1. 模型类型与参数 MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。 密集模型:包括Qwen3-32B、14B、8B、4B

2023-04-03

模型。“BloombergGPT 代表了为金融行业开发和应用这种新技术的第一步”。 该模型将协助彭博改进现有的金融 NLP 任务,如情感分析、命名实体识别、新闻分类和问答等。此外,BloombergGPT 将为彭博终端上的大量数据释放新的机会

2022-09-08

像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常大的想象空间。为推进自监督学习和视觉Transformer在阿里集团、阿里云上的落地,阿里云机器学习平台PAI 打造

2025-06-17

体 Claude Opus 4提升了90.2%。例如,当系统被要求列举信息技术 S&P 500指数成分企业全部董事会成员时,多智能体系统能够将任务拆解分配给各子智能体,从而找到正确答案,而单智能体系统因采用缓慢、串行的检索流程,未能

2025-03-27

研究团队近日开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重

2025-05-01

RWKV-7 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。 如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"[email protected]"。)

2025-06-20

优化,核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括: 集成了InfLLM v2可训练稀疏注意力内核,可加速长上下文预填充和解码; FR-Spec(频率排序推测采样)通过压缩词汇空间提高草稿效率,显

2025-06-13

统计,语音与文字服务无缝集成 视频客服 基于WebRTC技术的高清视频通话 支持一键视频对话与屏幕共享 适用于需要直观展示的服务场景 视频会议 集成Jitsi的专业会议平台 支持多人在线会议、屏幕共享 会议录制

2023-04-04

访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。” 根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供

2025-05-15

el Django Django 链接 下载 文档 技术栈 springboot-3.x for 后端 react for web前端 flutter for 移动客户端(ios&android) electron for 桌面客户端(windows&mac&linux) 联系 微语技术支持群: 服务号