英伟达开源 Llama-3.3-Nemotron-Super-49B-v1.5 模型

2025-07-30 發表於开源资讯

英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5，这是一款专为推理和 Agentic 任务优化的开源模型，在单个 H100 GPU 上实现高吞吐量。

模型介绍

Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的升级版本（该模型是 Meta 的 Llama-3.3-70B-Instruct 的衍生模型），专为复杂推理和智能体任务设计，支持 128K tokens 的上下文长度。

模型架构

Llama Nemotron Super v1.5 采用神经架构搜索（Neural Architecture Search，NAS），使该模型在准确率和效率之间实现了良好的平衡，将吞吐量的提升有效转化为更低的运行成本。

（注：NAS 的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构，利用自动化方法替代人工设计神经网络架构，从而提高模型的性能和效率。）

模型经过了多阶段后训练，包括针对数学、代码、科学和工具调用的监督微调 (SFT)，以及用于聊天对齐的奖励感知偏好优化 (RPO)、用于推理的带可验证奖励的强化学习 (RLVR) 和用于工具调用能力增强的迭代直接偏好优化 (DPO)。

在多个基准测试中，该模型表现出色。例如，在 MATH500 上 pass@1 达到 97.4，在 AIME 2024 上达到 87.5，在 GPQA 上达到 71.97。模型支持 Reasoning On/Off 模式，用户可通过在系统提示中设置 /no_think 来关闭推理模式。官方推荐在推理开启时使用 temperature=0.6 和 Top P=0.95，在关闭时使用贪心解码。

该模型已准备好用于商业用途，遵循 NVIDIA Open Model License 和 Llama 3.3 社区许可协议。开发者可以通过 NVIDIA build.nvidia.com 或 Hugging Face 下载和试用该模型，并可使用 vLLM（推荐 v0.9.2）进行部署，官方仓库中提供了支持工具调用的解析器插件。

英伟达开源 Llama-3.3-Nemotron-Super-49B-v1.5 模型

相關推薦

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

英伟达发布并开源两款多语言语音模型，支持商用

Cadence 发布基于英伟达 Blackwell 芯片的全新 AI 超算

英伟达发布 Windows 版 TensorRT-LLM 库，为本地运行大模型提速

英伟达推出 Cosmos 与 Nemotron 模型，推动物理 AI 与智能体发展

英伟达发布全球首个开源人形机器人基础模型 Isaac GR00T N1

英伟达开源多模态音频模型 Audio Flamingo 3

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

英伟达官宣：CUDA 工具链将全面原生支持 Python

DeepSeek 采用 UE8M0 FP8 标准：华为积极适配、彻底和英伟达决裂了

英伟达发布 Cosmos-Reason1 系列物理 AI 模型

英伟达推出通用深度研究（UDR）系统

英伟达研究团队发布混合架构语言模型 Jet-Nemotron

英伟达最新研究：SLM（小型语言模型）才是 Agentic AI 的未来