谷歌最强世界模型“硬控”OpenAI 一分钟：智能体交互、替你玩游戏！等等，智能体们早在游戏里 cosplay、交友了！

1,334 0 0

文章摘要

DeepMind最近发布了一款名为Genie 2的基础世界模型，该模型能够基于单个提示图像生成可控制动作和可玩的3D环境，用于训练和评估具身智能体。Genie 2的应用场景主要集中在游戏领域，具备对象交互、复杂角色动画、物理建模以及预测其他智能体行为的能力。该模型在大规模视频数据集上进行训练，使用Imagen 3生成的单个图像作为提示，能够模拟长达一分钟的一致性世界。Genie 2展示了智能响应操作、生成不同反事实体验、超长记忆、持续生成新内容、多样化环境和创建复杂3D结构的能力。

DeepMind与游戏开发者合作开发的SIMA智能体示例展示了Genie 2的功能，SIMA智能体能够遵循自然语言指令在3D游戏世界中完成任务。尽管有网友对Genie 2的实用性表示质疑，认为它可能并不适合游戏开发，但DeepMind的技术细节描述相对简单，未能完全满足开发者的好奇心。Genie 2是一个自回归的潜在扩散模型，通过自编码器后，视频中的潜在帧被传递给一个大型的transformer动力学模型，实现逐帧自回归采样，并使用无分类器引导提高动作的可控性。

此外，DeepMind还开发了一个可以实时运行的Genie 2蒸馏版本，尽管输出质量会有所降低。在《我的世界》平台上，智能体已经能够进行复杂的社会互动，如开发工作岗位、共享文化模因、就税收改革进行投票，甚至传播宗教。这些智能体通过文本提示发展出不同的个性特征、偏好和专业角色，无需创造角色的人做进一步输入。这项工作由AI初创公司Altera完成，该公司创始人Robert Yang认为这是迈向大规模“AI文明”的第一步，目标是创造能够真正爱人类的智能体。尽管有专家对此表示怀疑，认为现有技术不可能在机器中再现情感，但Altera的实验展示了智能体能够模仿人类行为的能力。