英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型


英伟达发布了一款名为 Llama-3.1-Nemotron-Nano-VL-8B-V1 的视觉语言模型(VLM)。该模型拥有80亿参数,专注于文档智能,能够查询和总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。

据介绍,该模型的开发基于几个关键发现:

  • 图像-文本对不足以达到最佳效果,交错的图像-文本数据至关重要;
  • 在交错图像-文本预训练期间解冻大型语言模型(LLM)能够实现在上下文学习;
  • 重新混合纯文本指令数据对于提升 VLM 和纯文本性能都非常关键。

Llama-Nemotron-Nano-VL-8B-V1 在训练的三个阶段均使用了商业图像和视频,并支持单图像和视频推理。其视觉编码器为 CRadioV2-H,语言编码器为 Llama-3.1-8B-Instruct。模型支持多张图像输入(在16K输入+输出token限制内),目前仅支持英文。输入格式包括 RGB 图像、MP4 视频和文本字符串。最大分辨率由12个512x512像素的图块布局约束决定,例如支持高达2048x1536(4x3布局)或1536x2048(3x4布局)的图像。

该模型在多个基准测试中取得了不错的成绩,例如在 MMMU Val(使用 ChatGPT 作为裁判)上达到48.2%,AI2D 上达到85.0%,ChartQA 上达到86.3%,DocVQA val 上达到91.2%,OCRBench 上得分839,VideoMME 上达到 54.7%。

NVIDIA 已在 Hugging Face 和 build.nvidia.com 上提供了该模型。使用该模型受 NVIDIA 开放许可协议和 Llama 3.1 社区模型许可的约束。

https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1


相關推薦

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2025-05-22

英伟达发布了 Cosmos-Reason1 系列模型,这是一组专注于物理常识理解和具身推理的 Physical AI 模型。 该系列模型基于 Qwen2.5-VL-7B-Instruct 进行后训练,结合了监督微调和强化学习方法,旨在理解空间、时间及基础物理学,并能作为

2025-03-20

在今天凌晨的GTC2025主题演讲上,英伟达发布全球首个开源仿人形机器人基础模型 Isaac GR00T N1 和仿真框架。 NVIDIA 创始人兼 CEO 黄仁勋表示:“通用机器人的时代已经到来,借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框

2025-05-10

Cadence 公司推出了一款新型超级计算机,可支持一整套由英伟达 Blackwell 系统和英伟达 CUDA-X 软件库加速的工程设计和生命科学应用。 这款超级计算机名为 Millennium M2000 ,配备了英伟达 HGX B200 系统和英伟达 RTX PRO 6000 Blackwell 服

2025-04-17

4月16日,英伟达向美国证监会(SEC)提交一份正式文件。 文件显示,自4月9日起,美国政府已通知英伟达,公司“对华特供版”AI芯片产品H20 GPU(人工智能加速计算处理器)出口至中国及D:5国家(包括中国大陆及香港、澳门等

2025-03-21

英伟达收购了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成

2023-07-04

Inflection AI 宣布在新一轮融资中筹集了 13 亿美元,该轮融资由微软、里德霍夫曼、比尔盖茨、埃里克施密特和新投资者 NVIDIA 领投,新一轮融资使公司融资总额达到15.25 亿美元,在 AI 领域的估值仅次于 OpenAI 公司。 Inflection AI

2023-09-16

多元共进|2023 Google 开发者大会精彩演讲回顾 数据和人工智能公司 Databricks 宣布完成由 T. Rowe Price Associates 领投的第一轮融资。本轮融资共筹集了超过 5 亿美元的资金,使得公司估值达到 430 亿美元,每股定价为 73.50 美元。

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2025-04-08

模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大会于3月17日至21日在美国加利福尼亚州圣何塞召开。公司首席执行官黄仁勋在主题演讲中说,随着AI行