Meta 发布开源世界模型 V-JEPA 2


Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。

开源地址:https://github.com/facebookresearch/vjepa2
官网地址:https://ai.meta.com/vjepa/
论文地址:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

V-JEPA 2是一种联合嵌入预测架构Joint Embedding Predictive Architecture)模型,这也是“JEPA”的名称由来。

模型包括两个主要组成部分:

  • 一个编码器,负责接收原始视频,并输出包含对于观察世界状态语义上有用的内容的嵌入(embeddings)。

  • 一个预测器,负责接收视频嵌入和关于要预测的额外内容,并输出预测的嵌入。

V-JEPA 2跟传统预测像素的生成式模型有很大性能差异,根据Meta测试数据,V-JEPA 2执行任务时每个步骤的规划用时缩短至Cosmos模型的三十分之一,不仅用时短,V-JEPA 2的成功率还更高。

V-JEPA 2的能力对现实世界agents理解复杂运动和时间动态(temporal dynamics),以及根据上下文线索预测动作都非常关键。基于这种预测能力,世界模型对于规划给定目标的动作顺序非常有用,比如从一个杯子在桌子上的状态到杯子在桌子边上的状态,中间要经历怎样的动作。

据介绍,V-JEPA 2的核心架构是一个自监督学习框架,通过互联网规模的视频数据来训练模型,使其能够学习到视频中的动态和静态信息。预训练阶段使用了超过100万小时的视频和100万张图像,这些数据涵盖了各种动作和场景。预训练的目标是让模型能够通过观察学习到世界的背景知识,而无需依赖于大量的标注数据。

值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。他在官方视频中提到,在世界模型的帮助下,AI不再需要数百万次的训练才能掌握一项新的能力,世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。


相關推薦

2025-04-08

可条款与真正的开源精神相去甚远。 一、Meta的Llama 4发布与开源宣言 马克·扎克伯格在Llama 4发布视频中充满热情地宣布:"今天是Llama 4的日子。我们的目标是构建世界领先的AI,将其开源,并使其普遍可访问,让全世界都能

2022-07-08

的交流受到了阻碍。 马克·扎克伯格表示: 我们刚刚开源了一个我们建立的 AI 模型,它可以翻译 200 种不同的语言,其中有许多语言还是目前不被其他翻译系统所支持的。我们把这个项目称为 "No Language Left Behind",我们使用

2024-07-25

Meta 在今天凌晨正式发布新一代开源大模型 Llama 3.1 系列。与此同时,Meta 创始人兼首席执行官马克·扎克伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信,描绘了 AI 发展的未来愿景。 他以闭源版 Unix 和开源 Linux

2025-03-20

为了进一步推动 Llama 的发展,Meta 计划在未来几个月内发布多个 Llama 模型,其中包括类似于 OpenAI 的 o3-mini 的 “推理” 模型,以及具备多模态能力的版本。扎克伯格还暗示可能会推出具有 “代理” 功能的模型,意味着某些模

2024-07-31

a 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型的开源路线。黄仁勋表示:“就像我身上穿的皮衣,我不愿意自己去制作

2023-08-25

输出语言 目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。  Meta 表示,现有的语音

2023-06-22

天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AIGC 项目。 目前业内比较知名的多模态大模型有 VisualGLM-6B 和 ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开

2023-10-28

众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生

2023-09-12

道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终

2023-08-26

ode Llama 完全免费,可用于研究和商业用途,并已在 GitHub 发布:https://github.com/facebookresearch/codellama。 Code Llama 基于 Llama 2 大语言模型打造,提供了三种模型: Code Llama - 基础代码模型 Code Llama - Python - 专门针对 Python 进行优

2024-02-04

季度财报电话会议中,马克 - 扎克伯格解释 Meta 为什么要开源其 AI 技术。 Meta开源其 AI 技术是出于推动技术创新、提升模型质量、建立行业标准、吸引人才、增加透明度和支持其长期战略的考虑。这不仅有助于 Meta 在竞争激烈

2023-06-09

其他不法行为,从而造成伤害。因此在信中质询了 Meta 在发布 LLaMA 之前是如何评估的风险、采取了哪些措施来防止该模型被滥用,以及如何根据其不受限制的可用性更新政策和实践。 “Meta 发布了其高级 AI 模型 LLaMA,似乎没有

2024-03-01

根据 The Information 的报道,Meta 计划在 7 月发布最新版本的大语言模型 —— Llama 3。 Meta 的一位员工透露,由于研究人员尚未开始对模型进行微调,因此公司尚未决定Llama 3是否是多模态的。Meta员工还说,Llama 3最高可能拥有超过1

2022-07-29

全在短期内可能不如客户安全重要。咨询公司 Everest Group 发布的一份有关“元宇宙中信任和安全”的报告认为,参与虚拟世界互动的企业将需要提高他们的信任和安全游戏,以避免针对虚拟世界化身的滥用行为、数据隐私问题、