书生发布 InternVL 3.5 最新视觉全系列模型


书生发布了最新的视觉模型 InternVL 3.5 全系列模型,从 1B 到 241B 共 8 个尺寸。

根据评测结果,书生 3.5 最高尺寸 241B 在视觉模型里的表现仅次于商业版的 GPT-5 和 Gemini 2.5 Pro。

所有模型均已发布到 Hugging Face

https://huggingface.co/collections/OpenGVLab/internvl35-68ac87bd52ebe953485927fb

该模型的技术亮点:

  • Cascade Reinforcement Learning(Cascade RL):采用“离线 RL + 在线 RL”两阶段策略,实现更加稳健收敛和精细对齐,从而显著增强模型的推理能力,在 MMMU 和 MathVista 等任务上表现提升明显。

  • Visual Resolution Router(ViR):动态调整视觉 token 的分辨率,兼顾性能与效率,使视觉理解更加灵活高效。

  • Decoupled Vision-Language Deployment(DvD):将视觉编码器与语言模型分开部署至不同 GPU,有效平衡资源负载,提升推理速度。

在推理性能提升高达 16.0%(整体推理任务中),同时相较于 InternVL3,实现了 4.05× 的推理速度加速。


相關推薦

2025-04-18

实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量

2023-09-08

大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型) 下面是 8 款 AI 大模型(及产品)的简介和链接: 百度(文心一言) 文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大

2025-06-28

deoMME等权威公开Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)与InternVL-3-8B(65.5);在内部短视频场景评测中优势进一步扩大,综合得分领先SOTA模型超10%。 更多详情可查看官方公告。

2023-08-16

团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富

2023-07-22

提出“17077是一个质数吗?一步一步地思考”的问题。但最新版本的 GPT-4 不仅错误地回答了"否",还没有生成解题的中间步骤。 与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份

2025-07-10

以开源领先的 40.3 分超过更大尺寸的 Qwen2.5-VL-72B-Instruct和InternVL3-78B等模型,并缩小了与闭源模型 Claude-3.7-Sonnet的差距。 在覆盖中小学知识点的 MMK12 上,R1V 3.0 以 78.5 分再度领跑开源阵营,超越Qwen2.5-VL-72B-Instruct、InternVL3-78B等开

2025-05-24

表现出色,优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。 在文本到图像生成质量上,BAGEL的表现可与专用生成器SD3相媲美。在经典图像编辑场景中,BAGEL展示了优于许多领先开源模型的定性结果。 BAGEL采用了混合变

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2025-06-11

推理。我们比较了设备端模型与类似规模的视觉模型,即InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct和Gemma-3-4B,并将我们的服务器模型与Llama-4-Scout、Qwen-2.5-VL-32B和GPT–4o进行比较。我们发现,苹果的设备端模型在与较大的InternVL和Qwen相比时

2025-03-27

北京时间 3 月 24 日晚,DeepSeek 「突然」发布了模型更新。 但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。 目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。 https://huggingface.co/dee

2023-09-27

AIdea 终于在 Apple Store 恢复上架了。 大约在 4 周前,我发布了 花了小半年开发了一个 AI 套壳 APP,然而大势已过,直接开源了 这篇文章,将开发了近半年的 APP 完全开源了,感谢大家的支持,在不到一个月的时间内,Github 上

2025-04-24

bsp; * ☁️ Skywork-OR1-preview 🖼️ 多模态     * 🔍 InternVL3(已支持 AWQ 量化)     * 🌊 SeaLLMs-v3     * 🗣️ Paraformer-ZH     * 🛰️ Megatts3 🛠️ 功能增强 🧠 Gradio 聊天界面支持展示思考过程(需打

2023-08-01

和长文本摘要,拓展了大模型能力边界。 根据 IDC 最新发布的《AI 大模型技术能力评估报告,2023》,百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对

2023-03-30

Blender 3.5 现已发布!此版本具有全新的视口合成器、雕刻模式下的矢量置换、内置的毛发资产、Cycles 灯光采样等内容。 Blender 是一个免费和开源的 3D 计算机图形软件工具集,用于创建动画电影、视觉效果、艺术、3D 打印模型