刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
作者信息
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014
文章摘要
【关 键 词】 生成式AI、Genie、交互环境、DeepMind、技术揭秘
摘要:
谷歌DeepMind发布了一种名为Genie的生成式交互环境(Generative Interactive Environments),这是一个拥有110亿参数的基础世界模型,能够通过单张图像提示生成可玩的交互式环境。Genie的技术突破在于其能够在没有动作标签的情况下学习控制,这为游戏、设计、XR和机器人行业带来了革命性的变化。Genie的架构基于Vision Transformer (ViT),包含潜在动作模型、视频分词器和动态模型三个关键组件。实验结果显示,Genie模型在不同领域的高质量、可控视频生成方面表现出色,且模型大小和批大小的增加均能带来性能增益。
详细摘要:
1. Genie的创新与应用:
谷歌的Genie模型通过单张图像提示,能够生成自主可控的虚拟世界,这在游戏设计、XR体验和机器人技术等领域具有潜在的应用价值。Genie的学习能力不依赖于动作标签,而是通过大量互联网视频数据集进行训练,从而学习细粒度的控制。此外,Genie还有助于培养下一代创作者,通过图像生成模型与Genie结合,可以创造出全新的交互环境。
2. Genie的技术架构:
Genie的架构基于Vision Transformer (ViT),包含三个关键组件:潜在动作模型(LAM)、视频分词器(Tokenizer)和动态模型。这些组件共同工作,使得Genie能够从原始视频帧中学习潜在动作,并将视频帧转换为离散token,最终预测视频的下一帧。
3. 实验结果与扩展性:
谷歌对Genie模型进行了广泛的实验,包括不同参数量和批大小的模型。结果显示,模型大小的增加有助于减少训练损失,而批大小的增加也能提升模型性能。在Platformers和Robotics数据集上的定性实验结果表明,Genie能够生成高质量的、跨领域的视频内容。
4. 技术揭秘与论文发布:
谷歌DeepMind已经公开了Genie的论文,详细介绍了其方法和实验结果。论文的共同一作包括华人学者石宇歌,她是谷歌DeepMind的研究科学家。Genie的研究成果为AI领域的进一步发展提供了新的视角和可能性。
5. 未来展望:
Genie的发布预示着AI技术在交互环境生成方面的新篇章。随着技术的不断进步,Genie有望成为训练多任务智能体的基础世界模型,为AI的通用化和具身智能的发展提供支持。
原文信息
【原文链接】 阅读原文
【原文字数】 2076
【阅读时长】 7分钟