英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

2025-06-06 發表於开源资讯

英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型（VLM）。该模型拥有80亿参数，专注于文档智能，能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。

据介绍，该模型的开发基于几个关键发现：

图像-文本对不足以达到最佳效果，交错的图像-文本数据至关重要；
在交错图像-文本预训练期间解冻大型语言模型（LLM）能够实现在上下文学习；
重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。

Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频，并支持单图像和视频推理。其视觉编码器为 CRadioV2-H，语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入（在16K输入+输出token限制内），目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定，例如支持高达2048x1536（4x3布局）或1536x2048（3x4布局）的图像。

该模型在多个基准测试中取得了不错的成绩，例如在 MMMU Val（使用 ChatGPT 作为裁判）上达到48.2%，AI2D 上达到85.0%，ChartQA 上达到86.3%，DocVQA val 上达到91.2%，OCRBench 上得分839，VideoMME 上达到 54.7%。

NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。

https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

相關推薦

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

英伟达推出 Cosmos 与 Nemotron 模型，推动物理 AI 与智能体发展

理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

英伟达发布并开源两款多语言语音模型，支持商用

黄仁勋支持开源 AI 大模型，与扎克伯格互换外套

英伟达研究团队发布混合架构语言模型 Jet-Nemotron

英伟达最新研究：SLM（小型语言模型）才是 Agentic AI 的未来

英伟达官宣：CUDA 工具链将全面原生支持 Python

英伟达推出通用深度研究（UDR）系统

英伟达开源多模态音频模型 Audio Flamingo 3

英伟达开源 2530 亿参数推理大模型，效果直逼 DeepSeek-R1

英伟达发布 Cosmos-Reason1 系列物理 AI 模型

英伟达发布 Windows 版 TensorRT-LLM 库，为本地运行大模型提速

英伟达发布全球首个开源人形机器人基础模型 Isaac GR00T N1