为什么号称模拟世界的Sora，处理不好一些简单的物理规律？

AIGC动态1年前 (2024)发布 AIGCOPEN

2,107 0 0

作者信息

【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
【微信号】 AIGCOPEN

文章摘要

【关键词】 AIGC、Sora、流形分布定则、概率分布变换、大语言模型

本文讨论了AIGC领域的专业社区，特别是关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地。文章以Sora视频生成模型为例，探讨了其技术路线中的缺陷，并提出了改进的可能性。

首先，文章介绍了流形分布定则，即自然数据集被视为流形上的概率分布。数据流形的低维性和连续光滑性是由自然规律限制的。文章通过人脸图片流形和稳恒态温度分布的例子，解释了数据流形的维数远低于原始数据空间维数的原因。

接着，文章讨论了概率分布变换，即如何将数据概率分布变成计算机可以生成的高斯分布。Sora通过扩散模型和传输变换的逆变换，实现了这一过程。

文章还强调了大语言模型对Sora性能的提升，尤其是在为训练视频数据添加描述性字幕方面。然而，Sora在处理相关性与因果律、局部合理与整体荒谬以及临界状态的缺失方面存在缺陷。例如，Sora在生成视频中无法准确表达物理因果律，导致局部合理但整体荒谬的结果。此外，Sora在生成关键临界态图像方面存在问题，这可能是由于临界态样本稀缺和扩散模型的局限性。

最后，文章提出了基于几何方法的最优传输理论框架，以克服Sora的缺陷。这种框架可以精确检测到稳恒态数据流形的边界，强调临界态事件的生成，从而更接近物理的真实。

文章以对Sora的批判性分析结束，指出了数据驱动世界模拟模型与基于第一性原理的物理定律模型之间的竞争，并鼓励年轻读者投身于科技发展的洪流中。