模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 AI、基础世界模型、Genie、视频游戏、交互环境
谷歌DeepMind团队发布了一个名为Genie的110亿参数的基础世界模型,它能够从一张图片创造出可玩的虚拟世界。Genie通过学习20万小时的未标注互联网视频,无需监督训练,即可确定主角并允许用户在生成的世界中对其进行控制。这一技术突破为培养未来的通才智能体开辟了新途径,重塑了交互式生成环境的格局。
Genie的创新之处在于其潜动作模型、视频分词器和自回归动态模型三大核心组件,它们共同实现了用户交互的可能性,并有助于智能体模仿视频中的行为。Genie不仅在游戏领域具有潜力,还能跨越多个领域,如机器人领域,处理现实世界任务。
Genie的架构基于视觉Transformer(ViT),采用内存高效的ST-transformer架构,使得视频生成更加高效。在实验中,Genie展示了其在平台游戏、3D场景理解和模拟视差方面的能力,以及在机器人训练模型中学习一致动作的能力。
研究人员相信,Genie未来可以作为训练多面手智能体的基础世界模型。在消融研究中,Genie的潜在动作模型设计选择和分词器架构表现最佳。Genie的诞生预示着AI视频游戏领域的重大变革,为全能AI智能体的成长提供了关键力量。
原文信息
【原文链接】 阅读原文
【原文字数】 3270
【阅读时长】 11分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...