谷歌，暗搓搓发了一个「游戏版 sora」

AIGC动态1年前 (2024)发布 geekpark

2,858 0 0

文章摘要

Google DeepMind推出了最新的基础世界模型Genie 2，该模型能够通过一张图像或文字描述生成可供人类或AI智能体游玩的3D场景。Genie 2不仅能够生成环境一致性的3D环境，还能在用户移动时准确呈现视野中消失的部分，模拟物体交互、动画、逼真的光照、物理反射效果以及NPC的行为。这一技术的发展进一步模糊了物理世界和数字世界的界限，让人们看到了如“头号玩家”般世界模型的未来。

Genie 2的推出，对于游戏开发和交互式原型设计的工作提供了新的想象空间。它能够促进一般代理的训练，与擅长单一任务的专业代理不同，一般代理可以适应各种各样的挑战。Genie 2可以作为虚拟现实、模拟和机器人技术创新的平台，例如，机器人可以在Genie 2生成的游戏环境中进行训练，学习如何在陌生的地形上导航或以新的方式与物体互动。

Genie 2的原理是基于自回归扩散模型，通过分析大量的视频数据，学习如何生成视频内容。它使用自动编码器提取视频中的重要信息，并输入到大型transformer动态模型中，通过因果掩码技术学习视频中帧与帧之间的关系。Genie 2采用了自回归采样方法，逐帧生成视频，保证了视频的连续性。

3D AI技术的发展预示着更广阔的应用前景，它不仅将推动技术的进步，更将深刻改变我们与世界的互动方式。3D AI将开启一个充满创新与机遇的新时代，推动我们进入一个更加智能、更加互联的世界。