蚂蚁 inclusionAI 团队发布 Ming-lite-omni v1.5


蚂蚁集团 inclusionAI 团队发布了全面升级版的全模态模型 Ming-Lite-Omni v1.5,基于 Ling-lite-1.5 构建,总参数量为 203 亿(其中 MoE 部分活跃参数为 30 亿),在图像-文本理解、文档理解、视频理解、语音理解与合成、图像生成与编辑等全模态能力上显著提升。

Ming-lite-omni v1.5 模型架构如下,主题参考了 Ming-lite-omni v1 版本的结构,区别在于为了增强图像编辑人物和场景一致性,升级 Vision head 支持参考图特征输入。

关键优化

  • 增强视频理解:通过 MRoPE 3D 时空编码 和针对长视频的 课程学习策略,显著提升对复杂视觉序列的理解能力 。
  • 优化多模态生成:采用双分支图像生成(ID 与场景一致性损失)和新的音频解码器及 BPE 编码,提升生成一致性与感知控制,实现高质量实时语音合成。
  • 数据全面升级:新增结构化文本数据、高质量产品信息及包括方言(如普通话、粤语、四川话等)在内的精细化视觉与语音感知数据。

性能表现

  • MMVetMathVistaOCRBench 等数据集上表现突出,文档理解任务(如 ChartQAOCRBench)取得 10B 以下参数模型中的 SOTA 成绩。
  • 视频理解、语音理解与生成(支持多种方言)及图像生成(保持人物 ID 一致性编辑)均处于行业领先地位。

该模型已在 Hugging FaceModelScope 上开放下载,并提供详细安装指南、代码示例和 Gradio 演示。

Hugging Face: https://huggingface.co/inclusionAI/Ming-Lite-Omni-1.5
ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-Lite-Omni-1.5


相關推薦

2025-06-07

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。 这得

2025-08-05

ywork-UniPic: Text > Image / Image > Text Tar-7B: Any-to-Any Ming-Lite-Omni-1.5: Any-to-Any Step3: Image+Text > Text HunyuanWorld-1: Image > 3D ThinkSound: Video > Audio Neta-Lumina: Text > Image ✨ 轻量级、可部署的模型 SmallThinker runs o

2025-03-25

彭博社援引知情人士报道称,蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低20%。对此,蚂蚁方面回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开

2023-06-22

根据《科创板日报》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态

2024-08-28

后台管理系统。kunlun-web 基于 React + Umi (乌米) + Ant Design (蚂蚁金服) 构建开发,提供前端解决方案;kunlun-service 基于 SpringBoot 与 Spring Cloud 构建开发,提供后端基于微服务架构的解决方案。系统通过 Apache Shiro 与 Jwt 组件,用 token

2024-09-21

后台管理系统。kunlun-web 基于 React + Umi (乌米) + Ant Design (蚂蚁金服) 构建开发,提供前端解决方案;kunlun-service 基于 SpringBoot 与 Spring Cloud 构建开发,提供后端基于微服务架构的解决方案。系统通过 Apache Shiro 与 Jwt 组件,用 token

2025-08-27

池,用于管理数据库连接; 软件信息 软件名称:小蚂蚁云微服务 Nacos+AntDesign版 软件作者:@小蚂蚁云团队 软件协议:Apache-2.0 官网网址:https://www.xiaomayicloud.com 文档网址:http://docs.cloud.nacos.antdvue.xiaomayicloud.com 演示

2025-04-15

蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职。徐鹏一直从事人工智能领域技术研究,曾在谷歌工作11年,负责和领导了谷歌翻译的核心技术研发,并参与了谷歌显示广告系统的算法研发。 此前蚂蚁成立AI创新研发与应用部

2024-07-02

蚂蚁区块链科技(上海)有限公司发生工商变更,注册资本由1亿人民币增至15亿人民币。该公司成立于2018年12月,由蚂蚁链(上海)数字科技有限公司全资持股。 此前,蚂蚁链(上海)数字科技有限公司也完成了一轮增资,

2023-11-07

11月6日,界面新闻从蚂蚁集团获悉,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,蚂蚁百灵大模型已完成备案,基于百灵大模型的多款产品已陆续完成内测,将向公众开放。 本次通过备案的是蚂

2025-03-27

蚂蚁数科在苏州举办的新能源数字资产社区春季峰会上,宣布正式推出能源电力时序大模型EnergyTS。 EnergyTS专为新能源行业定制,在光伏场景测评中,其发电量预测准确率显著超越谷歌(TimesFM-V2.0)和亚马逊(Chronos-Large)等国际主

2023-11-01

SOFABoot 是蚂蚁金服开源的基于 Spring Boot 的研发框架,它在 Spring Boot 的基础上,提供了诸如 Readiness Check,类隔离,日志空间隔离等等能力。在增强了 Spring Boot 的同时,SOFABoot 提供了让用户可以在 Spring Boot 中非常方便地使用 SOFA

2024-09-30

SOFABoot 是蚂蚁金服开源的基于 Spring Boot 的研发框架,它在 Spring Boot 的基础上,提供了诸如 Readiness Check,类隔离,日志空间隔离等等能力。在增强了 Spring Boot 的同时,SOFABoot 提供了让用户可以在 Spring Boot 中非常方便地使用 SOFA

2022-08-02

SOFABoot 是蚂蚁金服开源的基于 Spring Boot 的研发框架,它在 Spring Boot 的基础上,提供了诸如 Readiness Check,类隔离,日志空间隔离等等能力。在增强了 Spring Boot 的同时,SOFABoot 提供了让用户可以在 Spring Boot 中非常方便地使用 SOFA