谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

AIGC动态8个月前发布 almosthuman2014

1,579 0 0

文章摘要

Google DeepMind 近日宣布了其新一代世界模型 Genie 2，这一技术能够根据单张图像生成无限可玩的 3D 世界，为人类和 AI 智能体提供互动环境。Genie 2 的发布引起了广泛关注，被视作视频游戏和虚拟化世界模型未来发展的重要一步。DeepMind CEO 哈萨比斯邀请马斯克共同开发 AI 游戏，马斯克对此表示同意，显示出对技术的高度重视。

Genie 2 作为一个基础世界模型，能够生成具有多种可控动作的 3D 环境，用于训练和评估具身智能体。这一模型只需单张提示图像，即可创建可供人类或 AI 使用键鼠输入游玩的环境。在 AI 研究领域，游戏因其互动性、可衡量难度和进度，成为测试和推进 AI 发展的理想环境。DeepMind 一直重视 AI 与游戏的结合研究，从早期的 Atari 游戏到 AlphaGo 和 AlphaStar，再到与游戏开发者合作开发的通用智能体。

Genie 2 的出现有望解决训练更通用具身智能体时面临的训练环境不足的问题，能够创造无限新世界用于智能体的训练和评估。DeepMind 表示，Genie 2 还为构建交互式体验原型设计提供了新的创意工作流程。

与李飞飞的 World Labs 项目相比，Genie 2 和 World Labs 都具备基于单张图像生成可交互 3D 场景的能力，但两者在技术实现上存在本质区别。Genie 2 采用视频扩散技术，通过像素预测生成每一帧，并受用户输入引导影响下一帧的概率分布；而 World Labs 更注重挖掘物理世界的本质，从图片出发估计景物的深度和相对关系，生成更物理化的 3D 环境建模。

Genie 2 的涌现能力使其在建模范围上远超前代，能够模拟虚拟世界的任何动作后果，包括物体交互、角色动画、物理效果等。Genie 2 能够响应键盘动作控制、生成反事实视频帧、记忆消失的世界部分、使用新生成内容生成长视频、创建多样环境和视角、模拟复杂的 3D 结构和物体交互、角色动画、NPC 行为、物理效果等。

Genie 2 还支持快速原型设计，使研究人员能够快速试验新环境，训练和测试具身 AI 智能体。此外，Genie 2 还能够将现实世界的图像作为提示，模拟风中飘动的草或流动的河水等效果。

尽管 Genie 2 的研究仍处于早期阶段，但谷歌相信它是解决安全训练具身智能体结构性问题的一大途径，同时也能提供迈向 AGI 所需的广度和通用性。Genie 2 背后的技术是自回归潜在扩散模型，通过大型视频数据集训练，使用无分类器指导提高动作可控性。

谷歌表示，Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力。未来，谷歌将继续提高 Genie 在通用性和一致性方面的世界生成能力，朝着更通用 AI 系统和智能体的方向发展。同时，DeepMind 还发布了 AI 天气预测模型 GenCast，其表现达到了当前最佳水平。