基于扩散模型的，开源世界模型DIAMOND

AIGC动态2年前 (2024)发布 AIGCOPEN

4,316 0 0

文章摘要

研究人员联合开源了一款名为DIAMOND的世界模型，基于扩散模型，用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型为基础，因其能更好地捕捉视觉细节，并具备建模复杂多模态分布的能力。

在Atari 100k测试中，DIAMOND展现出在视觉复杂环境中生成高质量轨迹的能力，并在训练智能体方面取得了显著成果。

近年来，尽管强化学习在游戏、机器人控制和自动驾驶等领域有所应用，但其样本和训练效率低的问题限制了其应用范围。为解决此问题，世界模型作为一种辅助工具出现，使智能体能在模拟环境中学习。然而，现有模型多依赖序列化的离散潜变量，可能导致视觉细节的损失。DIAMOND采用基于扩散模型的创新架构，有效捕捉更丰富的视觉信息。

扩散模型是DIAMOND的核心，通过逆向学习噪声过程生成高质量的视觉数据，与基于离散潜在变量的传统方法不同，能生成更丰富和细致的视觉信息。扩散模型不仅生成数据，还负责模拟环境动态，使DIAMOND能预测未来的观察、奖励和终止状态。

在强化学习中，奖励模型和终止模型分别引导智能体的行为和决策能力，以及识别任务完成或需重新开始的时刻。DIAMOND中的奖励模型和终止模型可通过学习大量交互数据，捕捉观察、动作与奖励之间的复杂映射关系，以及事件结束的模式，从而提高智能体的学习效果。

综上所述，DIAMOND通过采用扩散模型捕捉环境状态的细微变化，结合奖励模型和终止模型，为强化学习智能体提供了一种更为有效的学习方式。这一创新架构在提高训练效率和视觉信息捕捉方面具有重要意义，有望推动强化学习在更多领域的应用。