作者信息
【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。
【微 信 号】 Si-Planet
文章摘要
【关 键 词】 人工智能、世界模型、V-JEPA、Sora、多模态
在近期的人工智能领域,「世界模型」的概念引起了广泛关注。Sora和LeCun的V-JEPA模型相继问世,展示了AI在理解物理世界方面的潜力。Sora以其逼真的视频生成能力迅速成为焦点,而LeCun则提出了一种非生成式的AI视频预测架构V-JEPA,强调了在表示空间中进行预测的重要性。
Yann LeCun在WGS峰会上表示,仅根据文字提示生成逼真视频,并不代表模型理解了物理世界。他强调,生成视频的过程与基于世界模型的因果预测有本质区别。LeCun认为,理想的方法是生成视频后续内容的抽象表示,而非具体的像素。这一理念正是JEPA(联合嵌入预测架构)的核心。与生成型架构相比,联合嵌入架构在视觉输入表达上表现更优。
V-JEPA模型通过观看200万个视频,学会了理解世界。它能够预测视频中被遮挡的部分,展示了高效的视觉表示能力。V-JEPA采用自监督学习方式,依靠未标记数据进行预训练,之后通过标记数据微调以适应特定任务。这种架构在训练和样本效率上实现了显著提升。
V-JEPA的掩码策略旨在通过在空间和时间上遮挡视频部分区域,迫使模型学习并理解场景。这种策略使得V-JEPA在冻结评估上表现出色,即在预训练后无需进一步调整即可应用于多个任务。V-JEPA在少样本冻结评估中表现出色,尤其是在标注样本较少的情况下。
Meta的下一步研究方向是将V-JEPA扩展到多模态方法,同时处理视频中的视觉和音频信息。此外,V-JEPA的强大情境理解力对未来的具身AI技术和增强现实(AR)眼镜具有重要意义。
网友对Sora和V-JEPA的讨论中,有人质疑这些模型是否真的理解世界。有人认为,生成有趣内容并不意味着理解内容,而理解进行推理的智能体模型必须超越现有的大模型或扩散模型。尽管如此,V-JEPA和Sora无疑为AI领域带来了新的视角和研究方向。
原文信息
【原文链接】 阅读原文
【原文字数】 3263
【阅读时长】 11分钟