刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界

作者信息


【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014

刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
 

文章摘要


【关 键 词】 生成式AIGenie交互环境DeepMind技术揭秘

摘要:

谷歌DeepMind发布了一种名为Genie的生成式交互环境(Generative Interactive Environments),这是一个拥有110亿参数的基础世界模型,能够通过单张图像提示生成可玩的交互式环境。Genie的技术突破在于其能够在没有动作标签的情况下学习控制,这为游戏、设计、XR和机器人行业带来了革命性的变化。Genie的架构基于Vision Transformer (ViT),包含潜在动作模型、视频分词器和动态模型三个关键组件。实验结果显示,Genie模型在不同领域的高质量、可控视频生成方面表现出色,且模型大小和批大小的增加均能带来性能增益。

详细摘要:

1. Genie的创新与应用:
谷歌的Genie模型通过单张图像提示,能够生成自主可控的虚拟世界,这在游戏设计、XR体验和机器人技术等领域具有潜在的应用价值。Genie的学习能力不依赖于动作标签,而是通过大量互联网视频数据集进行训练,从而学习细粒度的控制。此外,Genie还有助于培养下一代创作者,通过图像生成模型与Genie结合,可以创造出全新的交互环境。

2. Genie的技术架构:
Genie的架构基于Vision Transformer (ViT),包含三个关键组件:潜在动作模型(LAM)、视频分词器(Tokenizer)和动态模型。这些组件共同工作,使得Genie能够从原始视频帧中学习潜在动作,并将视频帧转换为离散token,最终预测视频的下一帧。

3. 实验结果与扩展性:
谷歌对Genie模型进行了广泛的实验,包括不同参数量和批大小的模型。结果显示,模型大小的增加有助于减少训练损失,而批大小的增加也能提升模型性能。在Platformers和Robotics数据集上的定性实验结果表明,Genie能够生成高质量的、跨领域的视频内容。

4. 技术揭秘与论文发布:
谷歌DeepMind已经公开了Genie的论文,详细介绍了其方法和实验结果。论文的共同一作包括华人学者石宇歌,她是谷歌DeepMind的研究科学家。Genie的研究成果为AI领域的进一步发展提供了新的视角和可能性。

5. 未来展望:
Genie的发布预示着AI技术在交互环境生成方面的新篇章。随着技术的不断进步,Genie有望成为训练多任务智能体的基础世界模型,为AI的通用化和具身智能的发展提供支持。

原文信息


【原文链接】 阅读原文
【原文字数】 2076
【阅读时长】 7分钟

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...