Qwen3 正式发布!模力方舟首发上线体验,昇腾算力全面适配


2025年4月29日,Qwen家族新成员Qwen3正式发布,包含多种模型版本。

1. 模型类型与参数

  • MoE 模型:有Qwen3-235B-A22B(总参数2350亿,激活参数220亿)和Qwen3-30B-A3B(总参数300亿,激活参数30亿)。
  • 密集模型:包括Qwen3-32B、14B、8B、4B、1.7B、0.6B,均为Apache 2.0开源协议。

2. 上下文长度:密集模型中,0.6B、1.7B、4B为32K,8B及以上为128K;MoE模型均为128K。

模力方舟上的昇腾算力已为您准备好首批0.6B8B30B三款模型,其中 30B 为 Mixture-of-Experts(MoE)模型,覆盖从轻量部署到高性能推理的多元应用需求,助力开发者轻松拥抱新一代大模型能力。

在线体验:https://ai.gitee.com/serverless-api?model=Qwen3-30B-A3B

全面升级的 Qwen3 模型性能表现

1. 基准测试结果

  • Qwen3-235B-A22B:在ArenaHard(95.6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于DeepSeek-R1、o1、Grok-3等模型,仅在AIME'25(81.5)略低于Gemini-2.5-Pro(86.7)。
  • Qwen3-30B-A3B:在ArenaHard(91.0)、AIME'24(80.4)等测试中,超越QwQ-32B(激活参数为其10倍)。
  • Qwen3-4B:性能可与Qwen2.5-72B-Instruct媲美,如在ArenaHard中为76.6,Qwen2.5-72B-Instruct为81.2。

2. 优势领域:在编码(如CodeForces Elo Rating)、数学(AIME系列)、多语言(MultilF 8 Languages)任务中表现突出。

Qwen3 关键特性

1. 混合思维模式

  • 思考模式:适合复杂问题,支持逐步推理,性能随计算预算(token量)提升而线性增长。
  • 非思考模式:响应快速,适用于简单任务,可通过参数 enable_thinking 或指令 /no_think / /think 动态切换。

2. 多语言支持:覆盖119种语言和方言,包括印欧语系、汉藏语系、阿拉伯语、日语、韩语等。

3. 增强的代理能力:优化了编码和工具调用能力,推荐搭配Qwen-Agent使用,支持MCP协议和自定义工具集成。

Qwen3 训练与架构

1. 预训练数据:使用36万亿token,是Qwen2.5的2倍,涵盖网页、PDF文档(通过Qwen2.5-VL提取文本),并通过Qwen2.5-Math/Code生成数学和代码合成数据。

2. 训练阶段

  • S1:基于30万亿token、4K上下文,构建基础语言能力。

  • S2:增加STEM、编码等知识密集型数据,新增5万亿token训练。

  • S3:使用长上下文数据,将上下文扩展至32K(最终支持128K)。

3. 架构优化:MoE模型通过稀疏激活降低计算成本,密集模型参数效率更高,如Qwen3-4B性能相当于Qwen2.5-72B。

官方博客:https://qwenlm.github.io/blog/qwen3/

昇腾加速,释放 MoE 潜能

此次在模力方舟首发的0.6B8B30B三款Qwen3 模型,均基于细粒度专家调度机制,具备更优的推理效率与更低的推理成本。支持最大 256K 上下文长度,统一推理与非推理模式,灵活应对长文理解、多轮对话、复杂推理与智能 Agent 开发等高阶任务

为释放Qwen3的强大性能,模力方舟基于昇腾最新发布的vLLM Ascend v0.8.4rc2进行适配。新版vLLM Ascend率先实现Ascend W8A8量化、DeepSeek并行机制适配,并启用PyTorch 2.5.1Torch.compile图模式特性,在推理性能、兼容性与开发体验上全面升级,为大模型部署提供了更高效、更专业的基础能力。

在线体验 Qwen3

在线体验 Qwen3 的强大实力:

https://ai.gitee.com/serverless-api?model=Qwen3-30B-A3B

https://ai.gitee.com/serverless-api


模力方舟的 AI 模型广场提供了行业大模型、文本生成、视觉模型、语音多模态、图像生成与处理、3D生成、文档处理/OCR、视频生成、自动语音识别、语音合成、向量化和重排、代码生成、风控识别十三大类共 81 款各领域的顶尖开源模型的在线体验和 API 使用。通过购买模型资源包,即可通过极低的价格即可尽享众多主流模型。

https://ai.gitee.com/serverless-api


相關推薦

2025-04-29

产业生态创新发布会上,开源人工智能社区“模力方舟”正式发布,“开源人工智能应用创新大赛”也同步启动,经开区将围绕建设全域人工智能之城,助力共建国内AI开源开放生态。 模力方舟依托开源PHP17年生态构建,积累超

2025-04-02

今天,模力方舟怀着「严谨且真诚」的态度,向全球代码界宣布一项革命性突破 ——Moark-M1,通过独创的 FishNet 神经融合引擎(FishNet Neuro-Fusion Engine, FNFE),实现了「推理速度快过闪电、训练成本低于一杯奶茶、腹有笑话气

2024-09-26

事、ICT基础设施业务管理委员会主任汪涛发表主题演讲时正式宣布,为加快AI在企业的创新和落地,华为全面开放openMind应用使能套件,助力企业快速构建自己的AI社区,繁荣产业生态。 “openMind应用使能套件,加速AI社区生态汇

2024-08-17

作系统市场注入了全新的活力与机遇。目前,相关镜像已正式上线openKylin官网下载页面,欢迎大家下载体验! 镜像下载地址(点击“阅读原文”直达): https://www.openkylin.top/downloads RV64G是RISC-V重要的基础指令架构,采用简化

2024-08-28

在2024中国国际大数据产业博览会上,第三届828 B2B企业节正式开幕,旨在融通数智供需,加速企业智改数转,助推中国数智产业实力再升级。  国家数据局党组书记、局长刘烈宏,以及中共贵州省委副书记、贵州省人民政府

2023-07-08

23年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享。 在7日下午举行

2025-03-27

其是“小版本升级”。 下面是官方针对 DeepSeek-V3-0324 发布的更新说明。 DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用

2025-04-24

nference v1.5.0 重磅发布! 🚀 重点亮点 🧩 模型虚拟空间正式上线! 随着模型更新频繁,不同模型对依赖的要求也越来越复杂,老模型需要老版本库,新模型又依赖新版包,常常出现互相冲突的问题。 现在,通过模型虚拟空间

2025-04-22

行业如教育、医疗、司法等进一步扩大了领先优势。 ✨首发快思考、慢思考统一模型,由一个模型同时支持两种思考模式,私有化部署简便;全新升级模型定制优化工具链,支持SFT、强化学习两种模型定制优化方案,定制门槛

2024-06-06

2024深圳人工智能生态大会暨“模力营”AI生态社区揭牌仪式日前在深圳南山区举行。活动现场,大湾区首个专注大模型领域的旗舰孵化器——深圳“模力营”AI生态社区揭牌,首批11家人工智能企业签约入驻“模力营”。 深圳“

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2023-08-05

为开发者大会 2023 (HDC.Together) 今日开启。 大会上,华为正式发布 HarmonyOS 4(鸿蒙 4)操作系统。据悉,全新的 HarmonyOS 4 在隐私安全、AI 大模型能力和个性交互等方面有全新突破。 华为介绍称,HarmonyOS 4 的小艺是首个具备 AI

2025-04-10

社区将焕发前所未有的活力。 经过深刻反思,社区团队正式将生态重塑确定为开源PHP社区下一个五年的核心发展战略。这不仅是一场技术升级,更是对社区生态的深刻反思与再造的过程。我们的目标是借助 AI 大模型的力量

2025-03-26

优刻得云平台始终密切关注 AI 技术发展动态,在新版本发布后迅速响应,第一时间在模型服务平台UModelVerse上架DeepSeek-V3最新版本,为广大用户带来高效、便捷的模型推理体验。只需简单3步,用户便可以「API」的调用方式,轻