通用世界模型问世：不学习就能生成新领域视频，可实时控制

AIGC动态1年前 (2024)发布 almosthuman2014

2,947 0 0

文章摘要

在人工智能领域，世界模型作为一种通过预测未来来理解数字和物理世界的方式，被视为实现通用人工智能（AGI）的关键路径之一。最新的研究进展中，Pandora模型通过引入自然语言动作和视频状态，向构建通用世界模型迈出一步。

Pandora模型展现了一系列独特特性：首先，它能够模拟广泛领域的视频状态，如室内外、自然城市、人类机器人、2D/3D等场景。其次，模型允许通过自由文本动作进行动态控制，这一点与以往文本到视频模型仅在视频开头接受文本提示的做法不同。此外，Pandora还具有动作可控性跨域迁移的能力，即在新领域中无需额外学习即可应用已学到的动作。

研究采用了两阶段训练策略，包括预训练和指令调整，以实现模型的视频生成一致性、可控性和通用性。在定性结果中，Pandora显示出了作为世界模拟器的潜力，并能够在跨域场景下实现即时控制，生成展示物理现象的视频。

值得注意的是，尽管存在一些限制，比如难以生成高质量和良好可控的视频，Pandora仍能通过自回归主干网络生成较长视频。数据显示，在高质量仿真数据存在的领域中，模型能更容易获得良好的可控性。研究指出，通过更大规模的训练，可以构建出更加强大的通用世界模型，显示出该研究方向具有巨大潜力。