文章摘要
【关 键 词】 Genie 2、3D环境、智能体、AI文明、行为模仿
DeepMind最近发布了一款名为Genie 2的基础世界模型,该模型能够基于单个提示图像生成可控制动作和可玩的3D环境,用于训练和评估具身智能体。Genie 2的应用场景主要集中在游戏领域,具备对象交互、复杂角色动画、物理建模以及预测其他智能体行为的能力。该模型在大规模视频数据集上进行训练,使用Imagen 3生成的单个图像作为提示,能够模拟长达一分钟的一致性世界。Genie 2展示了智能响应操作、生成不同反事实体验、超长记忆、持续生成新内容、多样化环境和创建复杂3D结构的能力。
DeepMind与游戏开发者合作开发的SIMA智能体示例展示了Genie 2的功能,SIMA智能体能够遵循自然语言指令在3D游戏世界中完成任务。尽管有网友对Genie 2的实用性表示质疑,认为它可能并不适合游戏开发,但DeepMind的技术细节描述相对简单,未能完全满足开发者的好奇心。Genie 2是一个自回归的潜在扩散模型,通过自编码器后,视频中的潜在帧被传递给一个大型的transformer动力学模型,实现逐帧自回归采样,并使用无分类器引导提高动作的可控性。
此外,DeepMind还开发了一个可以实时运行的Genie 2蒸馏版本,尽管输出质量会有所降低。在《我的世界》平台上,智能体已经能够进行复杂的社会互动,如开发工作岗位、共享文化模因、就税收改革进行投票,甚至传播宗教。这些智能体通过文本提示发展出不同的个性特征、偏好和专业角色,无需创造角色的人做进一步输入。这项工作由AI初创公司Altera完成,该公司创始人Robert Yang认为这是迈向大规模“AI文明”的第一步,目标是创造能够真正爱人类的智能体。尽管有专家对此表示怀疑,认为现有技术不可能在机器中再现情感,但Altera的实验展示了智能体能够模仿人类行为的能力。
原文和模型
【原文链接】 阅读原文 [ 3465字 | 14分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆