谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命

AIGC动态9个月前更新 AIera
797 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命
 

文章摘要


【关 键 词】 AI基础世界模型Genie视频游戏交互环境

谷歌DeepMind团队发布了一个名为Genie的110亿参数的基础世界模型,它能够从一张图片创造出可玩的虚拟世界。Genie通过学习20万小时的未标注互联网视频,无需监督训练,即可确定主角并允许用户在生成的世界中对其进行控制。这一技术突破为培养未来的通才智能体开辟了新途径,重塑了交互式生成环境的格局。

Genie的创新之处在于其潜动作模型、视频分词器和自回归动态模型三大核心组件,它们共同实现了用户交互的可能性,并有助于智能体模仿视频中的行为。Genie不仅在游戏领域具有潜力,还能跨越多个领域,如机器人领域,处理现实世界任务。

Genie的架构基于视觉Transformer(ViT),采用内存高效的ST-transformer架构,使得视频生成更加高效。在实验中,Genie展示了其在平台游戏、3D场景理解和模拟视差方面的能力,以及在机器人训练模型中学习一致动作的能力。

研究人员相信,Genie未来可以作为训练多面手智能体的基础世界模型。在消融研究中,Genie的潜在动作模型设计选择和分词器架构表现最佳。Genie的诞生预示着AI视频游戏领域的重大变革,为全能AI智能体的成长提供了关键力量。

原文信息


【原文链接】 阅读原文
【原文字数】 3270
【阅读时长】 11分钟

© 版权声明

相关文章

暂无评论

暂无评论...