刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

AIGC动态2年前 (2024)发布 almosthuman2014

2,874 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

【关键词】 生成式AI、Genie、交互环境、DeepMind、技术揭秘

摘要：

谷歌DeepMind发布了一种名为Genie的生成式交互环境（Generative Interactive Environments），这是一个拥有110亿参数的基础世界模型，能够通过单张图像提示生成可玩的交互式环境。Genie的技术突破在于其能够在没有动作标签的情况下学习控制，这为游戏、设计、XR和机器人行业带来了革命性的变化。Genie的架构基于Vision Transformer (ViT)，包含潜在动作模型、视频分词器和动态模型三个关键组件。实验结果显示，Genie模型在不同领域的高质量、可控视频生成方面表现出色，且模型大小和批大小的增加均能带来性能增益。

详细摘要：

1. Genie的创新与应用：
谷歌的Genie模型通过单张图像提示，能够生成自主可控的虚拟世界，这在游戏设计、XR体验和机器人技术等领域具有潜在的应用价值。Genie的学习能力不依赖于动作标签，而是通过大量互联网视频数据集进行训练，从而学习细粒度的控制。此外，Genie还有助于培养下一代创作者，通过图像生成模型与Genie结合，可以创造出全新的交互环境。

2. Genie的技术架构：
Genie的架构基于Vision Transformer (ViT)，包含三个关键组件：潜在动作模型（LAM）、视频分词器（Tokenizer）和动态模型。这些组件共同工作，使得Genie能够从原始视频帧中学习潜在动作，并将视频帧转换为离散token，最终预测视频的下一帧。

3. 实验结果与扩展性：
谷歌对Genie模型进行了广泛的实验，包括不同参数量和批大小的模型。结果显示，模型大小的增加有助于减少训练损失，而批大小的增加也能提升模型性能。在Platformers和Robotics数据集上的定性实验结果表明，Genie能够生成高质量的、跨领域的视频内容。

4. 技术揭秘与论文发布：
谷歌DeepMind已经公开了Genie的论文，详细介绍了其方法和实验结果。论文的共同一作包括华人学者石宇歌，她是谷歌DeepMind的研究科学家。Genie的研究成果为AI领域的进一步发展提供了新的视角和可能性。

5. 未来展望：
Genie的发布预示着AI技术在交互环境生成方面的新篇章。随着技术的不断进步，Genie有望成为训练多任务智能体的基础世界模型，为AI的通用化和具身智能的发展提供支持。