怒斥Sora之后，LeCun放出「视觉世界模型」论文，揭示AI学习物理世界的关键

AIGC动态1年前 (2024)发布 almosthuman2014

1,989 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

机器之心报道了一个引人注目的新闻：Sora的发布在AI领域引起了广泛关注，但Yann LeCun对此持有不同意见。LeCun认为，尽管Sora的视频生成能力令人印象深刻，但这并不意味着模型真正理解了物理世界。他批评了OpenAI从ChatGPT到Sora一贯采用的自回归生成式路线，认为这种方法无法构建出真正的“世界模型”。

LeCun最近发布了一篇新论文《在视觉表征学习中学习和利用世界模型》，探讨了如何在视觉任务中利用世界模型获得类似自回归模型的性能。论文指出，通过学习世界模型来学习表征，可以灵活掌握表征的属性，从而使其成为一个极具吸引力的表征学习框架。

研究中提出的图像世界模型（IWM）采用了联合嵌入预测架构（JEPA）的框架，能够学习等变表征。研究发现，对变换不变的世界模型在线性评估中表现更好，而等变的世界模型与更好的世界模型微调相关。这表明，通过学习世界模型，可以在易适应性和原始性能之间做出权衡。

论文还探讨了如何利用世界模型完成下游任务，如图像分类和图像分割等判别任务。结果表明，通过微调，可以将学习到的世界模型重新用于下游任务，以极低的成本实现与编码器微调相媲美的性能。此外，通过进行多任务微调，可以进一步提高效率和多功能性。

最后，研究者研究了IWM在自监督学习中的表现，发现其在线性探测和注意力探测中的表现与传统对比学习方法和掩蔽图像建模法（MIM）相比具有竞争力。这表明，通过改变世界模型的等变性，IWM能够在对比学习方法和MIM之间找到自己的位置，为表征学习提供了一种灵活的方法。

这项研究不仅揭示了利用世界模型进行表征学习的关键方面，也为未来的AI模型开发提供了新的思路和方法。