LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

AIGC动态2年前 (2024)发布 Si-Planet

3,273 0 0

作者信息

【原文作者】 硅星人Pro
【作者简介】 硅（Si）是创造未来的基础，欢迎来到这个星球。
【微信号】 Si-Planet

文章摘要

在近期的人工智能领域，「世界模型」的概念引起了广泛关注。Sora和LeCun的V-JEPA模型相继问世，展示了AI在理解物理世界方面的潜力。Sora以其逼真的视频生成能力迅速成为焦点，而LeCun则提出了一种非生成式的AI视频预测架构V-JEPA，强调了在表示空间中进行预测的重要性。

Yann LeCun在WGS峰会上表示，仅根据文字提示生成逼真视频，并不代表模型理解了物理世界。他强调，生成视频的过程与基于世界模型的因果预测有本质区别。LeCun认为，理想的方法是生成视频后续内容的抽象表示，而非具体的像素。这一理念正是JEPA（联合嵌入预测架构）的核心。与生成型架构相比，联合嵌入架构在视觉输入表达上表现更优。

V-JEPA模型通过观看200万个视频，学会了理解世界。它能够预测视频中被遮挡的部分，展示了高效的视觉表示能力。V-JEPA采用自监督学习方式，依靠未标记数据进行预训练，之后通过标记数据微调以适应特定任务。这种架构在训练和样本效率上实现了显著提升。

V-JEPA的掩码策略旨在通过在空间和时间上遮挡视频部分区域，迫使模型学习并理解场景。这种策略使得V-JEPA在冻结评估上表现出色，即在预训练后无需进一步调整即可应用于多个任务。V-JEPA在少样本冻结评估中表现出色，尤其是在标注样本较少的情况下。

Meta的下一步研究方向是将V-JEPA扩展到多模态方法，同时处理视频中的视觉和音频信息。此外，V-JEPA的强大情境理解力对未来的具身AI技术和增强现实（AR）眼镜具有重要意义。

网友对Sora和V-JEPA的讨论中，有人质疑这些模型是否真的理解世界。有人认为，生成有趣内容并不意味着理解内容，而理解进行推理的智能体模型必须超越现有的大模型或扩散模型。尽管如此，V-JEPA和Sora无疑为AI领域带来了新的视角和研究方向。