英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型


英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。

据介绍,该模型的开发基于几个关键发现:

  • 图像-文本对不足以达到最佳效果,交错的图像-文本数据至关重要;
  • 在交错图像-文本预训练期间解冻大型语言模型(LLM)能够实现在上下文学习;
  • 重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。

Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频,并支持单图像和视频推理。其视觉编码器为 CRadioV2-H,语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入(在16K输入+输出token限制内),目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定,例如支持高达2048x1536(4x3布局)或1536x2048(3x4布局)的图像。

该模型在多个基准测试中取得了不错的成绩,例如在 MMMU Val(使用 ChatGPT 作为裁判)上达到48.2%,AI2D 上达到85.0%,ChartQA 上达到86.3%,DocVQA val 上达到91.2%,OCRBench 上得分839,VideoMME 上达到 54.7%。

NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。

https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1


相關推薦

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。 数据集构成 67.0% 视觉问答(VQA)样本 28.4% OCR 样本 4.6% 图像描述(Captioning)样本 主要用途 文档理解

2025-08-13

据英伟达官方消息,英伟达在技术领域再推新进展。其推出的 NVIDIA Cosmos 平台,整合前沿生成式世界基础模型(WFM)、先进分词器、护栏以及高效数据处理和管理工作流,旨在加速物理 AI 开发。该平台的世界基础模型经 2000 万

2025-08-22

英伟达NeMo团队发布并开源了两款多语言语音模型Canary-1b-v2和Parakeet-tdt-0.6b-v3,分别针对语音识别与翻译以及高吞吐量转录场景,均支持商用。 Canary-1b-v2拥有10亿参数,支持25种欧洲语言的自动语音识别(ASR)与双向语音翻

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型

2025-08-20

英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文,提出了一个极具颠覆性的观点:SLM(小型语言模型)才是智能代理(Agentic AI)的未来。 https://arxiv.org/pdf/2506.02153 论文核心观点总结

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2025-05-22

英伟达发布了 Cosmos-Reason1 系列模型,这是一组专注于物理常识理解和具身推理的 Physical AI 模型。 该系列模型基于 Qwen2.5-VL-7B-Instruct 进行后训练,结合了监督微调和强化学习方法,旨在理解空间、时间及基础物理学,并能作为

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-07-30

英伟达发布了 Llama-3.3-Nemotron-Super-49B-v1.5,这是一款专为推理和 Agentic 任务优化的开源模型,在单个 H100 GPU 上实现高吞吐量。 模型介绍 Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的

2025-08-26

清华大学计算机系人工智能所博士梁斌表示,UE8M0 FP8 和英伟达的 FP8 是两个东西,两套标准。 DeepSeek 这次为什么非要强调 UE8M0 FP8 呢?这个和英伟达的 FP8 是两个东西,两套标准,正式决裂。 显存的发展是有限的,而模型的

2025-05-10

Cadence 公司推出了一款新型超级计算机,可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。 这款超级计算机名为 Millennium M2000 ,配备了英伟达 HGX B200 系统和英伟达 RTX PRO 6000 Blackwell 服