世界模型也扩散!训练出的智能体竟然不错
文章摘要
【关 键 词】 扩散模型、强化学习、环境模拟、视觉细节、智能体训练
在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境动态。然而,这种对信息进行压缩的方法可能会忽视对强化学习至关重要的视觉细节。
针对这一局限,来自日内瓦大学、爱丁堡大学和微软研究院的研究者合作开发了一种在扩散世界模型中训练的强化学习智能体——DIAMOND。
DIAMOND利用了扩散模型在图像生成上的优势,提高了对环境动态的模拟精度。在Atari 100k基准测试中,DIAMOND取得了平均1.46的人类归一化得分(HNS),这一成绩可以比肩完全在世界模型中训练的智能体的顶尖水平。
研究强调了在图像空间中操作的好处,这使扩散世界模型能够成为环境的直接替代,进而为深入理解世界模型和智能体行为提供了可能。特别是在某些游戏中,性能的提升得益于对关键视觉细节的更好建模。
在方法方面,研究者基于扩散模型,引入了漂移和扩散系数来定义特定的扩散过程,并采用了基于Karras等人提出的EDM公式。研究还重点讨论了预处理器选择的重要性,强调了通过预处理器保持网络输入和输出单位方差的重要性,以及如何利用经验转换和数据分布标准差来优化模型。
综上所述,DIAMOND在扩散世界模型的应用上展示了显著的潜力和优势,证明了视觉细节在强化学习中的重要性,并通过其方法设计为智能体训练提供了新的视角和途径。
原文和模型
【原文链接】 阅读原文 [ 2812字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...