蚂蚁 inclusionAI 团队发布 Ming-lite-omni v1.5

2025-07-30 發表於开源资讯

蚂蚁集团 inclusionAI 团队发布了全面升级版的全模态模型 Ming-Lite-Omni v1.5，基于 Ling-lite-1.5 构建，总参数量为 203 亿（其中 MoE 部分活跃参数为 30 亿），在图像-文本理解、文档理解、视频理解、语音理解与合成、图像生成与编辑等全模态能力上显著提升。

Ming-lite-omni v1.5 模型架构如下，主题参考了 Ming-lite-omni v1 版本的结构，区别在于为了增强图像编辑人物和场景一致性，升级 Vision head 支持参考图特征输入。

关键优化

增强视频理解：通过 MRoPE 3D 时空编码 和针对长视频的 课程学习策略，显著提升对复杂视觉序列的理解能力。
优化多模态生成：采用双分支图像生成（ID 与场景一致性损失）和新的音频解码器及 BPE 编码，提升生成一致性与感知控制，实现高质量实时语音合成。
数据全面升级：新增结构化文本数据、高质量产品信息及包括方言（如普通话、粤语、四川话等）在内的精细化视觉与语音感知数据。

性能表现

在 MMVet、MathVista、OCRBench 等数据集上表现突出，文档理解任务（如 ChartQA、OCRBench）取得 10B 以下参数模型中的 SOTA 成绩。
视频理解、语音理解与生成（支持多种方言）及图像生成（保持人物 ID 一致性编辑）均处于行业领先地位。

该模型已在 Hugging Face 和 ModelScope 上开放下载，并提供详细安装指南、代码示例和 Gradio 演示。

Hugging Face: https://huggingface.co/inclusionAI/Ming-Lite-Omni-1.5
ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-Lite-Omni-1.5

蚂蚁 inclusionAI 团队发布 Ming-lite-omni v1.5

相關推薦

清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

中国开源 AI 社区 7 月高亮时刻回顾

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

kunlun-admin v1.5.3 发布，昆仑管理系统

kunlun-admin v1.5.4 发布，昆仑管理系统

小蚂蚁云 XiaoMaYi-Nacos-AntdVue 微服务框架 v1.0.0 发布

蚂蚁集团副总裁、前基础大模型负责人徐鹏离职

蚂蚁区块链注册资本由 1 亿增至 15 亿人民币

蚂蚁集团百灵大模型通过备案，采用 Transfromer 架构

蚂蚁数科发布能源电力时序大模型 EnergyTS，预测精度超谷歌、亚马逊

SOFABoot 3.21.0 发布，蚂蚁开源的基于 Springboot 的服务框架

SOFABoot 4.4.0 发布，蚂蚁开源的基于 Springboot 的服务框架

SOFABoot 3.14.0 已发布，蚂蚁开源的基于 Springboot 的服务框架