谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

AIGC动态2年前 (2024)更新 AIera

2,310 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

文章摘要

【关键词】 AI、基础世界模型、Genie、视频游戏、交互环境

谷歌DeepMind团队发布了一个名为Genie的110亿参数的基础世界模型，它能够从一张图片创造出可玩的虚拟世界。Genie通过学习20万小时的未标注互联网视频，无需监督训练，即可确定主角并允许用户在生成的世界中对其进行控制。这一技术突破为培养未来的通才智能体开辟了新途径，重塑了交互式生成环境的格局。

Genie的创新之处在于其潜动作模型、视频分词器和自回归动态模型三大核心组件，它们共同实现了用户交互的可能性，并有助于智能体模仿视频中的行为。Genie不仅在游戏领域具有潜力，还能跨越多个领域，如机器人领域，处理现实世界任务。

Genie的架构基于视觉Transformer（ViT），采用内存高效的ST-transformer架构，使得视频生成更加高效。在实验中，Genie展示了其在平台游戏、3D场景理解和模拟视差方面的能力，以及在机器人训练模型中学习一致动作的能力。

研究人员相信，Genie未来可以作为训练多面手智能体的基础世界模型。在消融研究中，Genie的潜在动作模型设计选择和分词器架构表现最佳。Genie的诞生预示着AI视频游戏领域的重大变革，为全能AI智能体的成长提供了关键力量。