
文章摘要
Meta最新发布的V-JEPA 2世界模型标志着人工智能在理解物理世界方面迈出了重要一步。该模型由Meta首席AI科学家Yann LeCun亲自推广,旨在通过模拟人类对物理世界的理解,推动机器人技术的发展。V-JEPA 2是首个基于视频训练的世界模型,能够在新环境中进行零样本规划和机器人控制。这一突破性技术不仅提升了动作预测和物理世界建模能力,还为机器人技术在现实世界中的应用提供了新的可能性。
V-JEPA 2采用自监督学习框架,利用超过100万小时的互联网视频和图像数据进行预训练,不依赖语言监督。通过视觉掩码去噪目标进行视频预训练,V-JEPA 2在运动理解和人类动作预测方面取得了优异性能。例如,在Something-Something v2数据集上达到了77.3的top-1准确率,在Epic-Kitchens-100上达到了39.7的recall-at-5。此外,与大型语言模型对齐后,V-JEPA 2在多个视频问答任务中展示了当前最佳性能。
V-JEPA 2的核心架构包括编码器和预测器。编码器接收原始视频并输出捕捉世界状态的语义信息的嵌入,预测器则基于这些嵌入和额外上下文进行预测。通过自监督学习,V-JEPA 2能够在无需额外人工标注的情况下进行视频训练,显著提高了模型的泛化能力。在短期任务中,如拾取或放置物体,V-JEPA 2通过预测候选动作的后果并评分,实现了高效的机器人控制。在更长期的任务中,如拾取物体并将其放置在正确的位置,V-JEPA 2通过视觉子目标实现了65%–80%的成功率。
为了进一步评估模型从视频中理解和推理物理世界的能力,Meta发布了三个新的基准测试:IntPhys 2、Minimal Video Pairs (MVPBench)和CausalVQA。这些基准测试揭示了当前模型在物理理解方面与人类表现之间的显著差距,为未来的改进提供了重要方向。例如,IntPhys 2衡量模型区分物理上可能和不可能场景的能力,而CausalVQA则专注于物理因果关系理解。
Meta还透露了未来发展的方向,包括开发能够在多个时间和空间尺度上学习、推理和规划的分层次JEPA模型,以及能够使用多种感官进行预测的多模态JEPA模型。这些计划将进一步推动机器智能的发展,使其在更复杂的任务中表现出色。V-JEPA 2的开源发布为研究社区提供了宝贵的资源,有望加速人工智能在物理世界理解和机器人技术中的应用。
原文和模型
【原文链接】 阅读原文 [ 1888字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆