
文章摘要
Meta 近日推出了其最新的“世界模型”V-JEPA 2,旨在提升 AI 在物理世界中的视觉理解与预测能力,从而增强 AI 主体的物理推理能力。这一模型被认为是实现高级机器智能(AMI)的关键步骤,尤其是在机器人技术和自主系统领域。V-JEPA 2 被描述为“现实的抽象数字孪生”,能够帮助 AI 预测其行为的后果并规划行动方案,从而完成给定任务。Meta 强调,V-JEPA 2 可以在不需要标记视频片段的情况下执行此类推理,这使其与现有的生成式 AI 系统(如 ChatGPT 或 Gemini)区别开来。
V-JEPA 2 的核心功能包括理解、预测与规划,旨在通过构建现实的内部模拟,帮助机器预测结果并据此规划行动。该模型在 100 多万小时的视频数据基础上进行训练,旨在帮助 AI 主体理解并预测物理世界中的事件序列,例如重力的影响。Meta 还展示了 V-JEPA 2 在实验室机器人上的应用,机器人能够执行抓取、拾取物体并将其放置到新位置等任务。此外,Meta 发布了三项新的基准测试(IntPhys 2、MVPBench 和 CausalVQA),用于评估现有模型从视频中进行物理世界推理的能力。
值得注意的是,V-JEPA 2 的速度比英伟达的 Cosmos 模型快 30 倍,并且 Meta 已将其开源,允许开发人员访问、测试并将其集成到各种用例中。这一举措被视为 Meta 在 AI 领域的一个重要里程碑,尤其是在与 OpenAI、微软和谷歌的竞争中。Meta 表示,V-JEPA 2 将使其在开发“通用人工智能”的竞赛中占据主导地位,这类 AI 有望在现实世界中更接近人类的思考和行动模式。
Meta 的首席 AI 科学家 Yann LeCun 对 V-JEPA 2 给予了高度评价,并亲自在演示视频中讲解这一成果。LeCun 长期以来一直主张 AI 需要世界模型,而不仅仅是大语言模型(LLM)。他批评 LLM 不足以实现人类水平的智能,并强调通过观察环境和与环境互动来学习的世界模型才是未来的方向。LeCun 还透露,他研究通过训练系统预测视频中将要发生的事情来理解世界如何运作的想法已有 20 年之久。
Meta 的 CEO 马克·扎克伯格也在积极推动公司的 AI 发展,不仅投资了 140 亿美元用于 AI 训练数据的公司 Scale AI,还亲自领导组建了一个专注于实现“超级智能”目标的团队。扎克伯格计划为这一团队招募约 50 名顶尖 AI 专家,并提供价值数千万美元的薪酬方案,包括股权激励。这一举措被视为 Meta 在 AI 领域追赶竞争对手的重要步骤。
随着世界模型在 AI 进步中变得越来越重要,V-JEPA 2 的发布标志着 Meta 在这一领域的领先地位。如果像 V-JEPA 2 这样的世界模型继续按预期发展,它们可能会为 AI 在陌生环境中自主运行铺平道路,进而开拓医疗、农业甚至救灾等领域的应用场景。Meta 的这一举措也顺应了 AI 研究正向世界建模发展的增长趋势,其他公司如谷歌 DeepMind 和初创公司 World Labs 也在积极开发类似的世界模型。
原文和模型
【原文链接】 阅读原文 [ 2700字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★