Sora是世界模拟器吗？全球首篇综述全面解析通用世界模型

AIGC动态2年前 (2024)发布 almosthuman2014

3,650 0 0

文章摘要

世界模型是实现通用人工智能（AGI）的关键路径之一，它通过对未来的预测来增进对世界的理解。北京极佳视界科技有限公司（极佳科技）的研究人员联合多家单位推出了全球首篇通用世界模型综述，通过260余篇文献，对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论。

在视频生成领域，OpenAI发布的Sora模型具有极强的仿真能力，展现了对物理世界的初步理解。Sora模型包括压缩模型、基于Transformer的扩散模型和语言模型三个部分。近年来，视频生成模型呈现出多样化和创新化的发展趋势，不同的模型方法相继涌现并取得了令人瞩目的生成效果。

在自动驾驶领域，世界模型被用来构建环境的动态表示，对未来的准确预测对于确保在各种工况下进行安全驾驶至关重要。一些研究已经将扩散模型引入到自动驾驶领域，以构建世界模型作为神经模拟器，生成所需的自主2D驾驶视频。

在智能体和机器人领域，世界模型被用于规划一系列动作完成指定任务。World Models从智能体的经验中对世界的知识进行建模，并获得预测未来的能力。智能体和机器人领域的世界模型发展视概览显示，不同结构的世界模型如RSSM、JEPA和Transformer等都受到了关注。

尽管通用世界模型在特定领域应用如自动驾驶和机器人的研究急剧增加，但仍有许多挑战和机遇等待进一步探索。挑战包括因果和反事实推理、模拟物理定律、泛化能力和计算效率等。例如，世界模型应能够推断以前从未遇到过的决策的结果，而不仅仅是在已知数据分布内进行预测。同时，世界模型需要遵守物理定律，如重力、光相互作用和流体动力学。此外，泛化能力强调的不仅是数据内插，更重要的是数据外推。最后，计算效率也是评估世界模型性能的关键之一。

极佳科技的研究人员表示，会在GitHub项目中持续更新关于通用世界模型的更多研究进展，希望该综述能够成为通用世界模型的研究参考。