哲学家万字解析Sora本质，杨立昆点赞转发，AI视频离世界模拟器还有多远？

AIGC动态2年前 (2024)发布 Si-Planet

2,078 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

智东西报道了深度学习领域的一个重要讨论：视频生成器是否可以被视为世界模拟器。Meta首席科学家杨立昆分享了一篇探讨这一问题的万字博文，引发了业界的广泛关注和讨论。文章深入分析了视频生成器如Sora的工作原理、模拟假说、直观物理学等多个角度，最终得出结论：虽然Sora等视频生成器可能不是传统意义上的“世界模拟器”，但它们可以被视为有限的“世界模型”，能在潜在空间中学习抽象规律，具有部分模拟世界的能力。

Sora是由OpenAI推出的一个深度学习模型，能够根据文本提示生成视频和图像。尽管其架构没有真正的突破，但它在技术上取得了显著进步，展示了扩展能力的证明。Sora的核心是一个扩散变换器（DiT），这是一种结合了Transformer主干网络的扩散模型，与传统的潜在扩散模型相比，DiT在效率、扩展性和适应不同生成分辨率方面具有一定优势。

文章还探讨了视频生成模型在训练中是否能习得物理规律的“模拟假说”，以及人类如何通过直观物理引擎模拟事件。通过对现有的“世界模型”概念的分析，文章指出，尽管视频生成模型如Sora在某些方面能够模拟物理世界，但它们并未达到强因果概念高标准的“世界模型”。

进一步的研究表明，图形生成模型能够学习3D几何结构等重要线索，提供了Sora等视频生成模型可能具有有限“世界模拟器”能力的证据。尽管Sora的某些输出结果公然违反了物理学原理，但它的输出结果在直观物理方面的一致性表明，Sora在潜在空间中学习了一定的抽象规律。

最后，文章对视频生成模型从娱乐到世界模拟的探索进行了总结，提出了一系列开放性问题，探讨了视频生成模型在AI和机器人技术未来中的潜在角色，以及它们如何与深度学习和认知科学的关键研究问题相关。这一讨论不仅展示了视频生成模型的技术进步，也为未来的研究方向提供了思考。