英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。
据介绍,该模型的开发基于几个关键发现:
- 图像-文本对不足以达到最佳效果,交错的图像-文本数据至关重要;
- 在交错图像-文本预训练期间解冻大型语言模型(LLM)能够实现在上下文学习;
- 重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。
Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频,并支持单图像和视频推理。其视觉编码器为 CRadioV2-H,语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入(在16K输入+输出token限制内),目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定,例如支持高达2048x1536(4x3布局)或1536x2048(3x4布局)的图像。
该模型在多个基准测试中取得了不错的成绩,例如在 MMMU Val(使用 ChatGPT 作为裁判)上达到48.2%,AI2D 上达到85.0%,ChartQA 上达到86.3%,DocVQA val 上达到91.2%,OCRBench 上得分839,VideoMME 上达到 54.7%。
NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。
https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1