世界模型也扩散！训练出的智能体竟然不错

AIGC动态1年前 (2024)发布 almosthuman2014

2,490 0 0

文章摘要

在图像生成领域，扩散模型已成为主流方法，并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型，其主要通过对离散潜在变量序列的操作来模拟环境动态。然而，这种对信息进行压缩的方法可能会忽视对强化学习至关重要的视觉细节。

针对这一局限，来自日内瓦大学、爱丁堡大学和微软研究院的研究者合作开发了一种在扩散世界模型中训练的强化学习智能体——DIAMOND。

DIAMOND利用了扩散模型在图像生成上的优势，提高了对环境动态的模拟精度。在Atari 100k基准测试中，DIAMOND取得了平均1.46的人类归一化得分（HNS），这一成绩可以比肩完全在世界模型中训练的智能体的顶尖水平。

研究强调了在图像空间中操作的好处，这使扩散世界模型能够成为环境的直接替代，进而为深入理解世界模型和智能体行为提供了可能。特别是在某些游戏中，性能的提升得益于对关键视觉细节的更好建模。

在方法方面，研究者基于扩散模型，引入了漂移和扩散系数来定义特定的扩散过程，并采用了基于Karras等人提出的EDM公式。研究还重点讨论了预处理器选择的重要性，强调了通过预处理器保持网络输入和输出单位方差的重要性，以及如何利用经验转换和数据分布标准差来优化模型。

综上所述，DIAMOND在扩散世界模型的应用上展示了显著的潜力和优势，证明了视觉细节在强化学习中的重要性，并通过其方法设计为智能体训练提供了新的视角和途径。

原文和模型

【原文链接】 阅读原文 [ 2812字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 图像生成 # 大模型 # 强化学习 # 扩散模型 # 智能体训练 # 环境模拟 # 视觉细节

文章版权归作者所有，未经允许请勿转载。

机器之心

840

更长思维并不等于更强推理性能，强化学习可以很简洁

机器之心

1,338

超越人类！DeepMind强化学习新突破：AI在「我的世界」中封神！

新智元

1,296

OpenAI科学家震惊TED大会：让AI模型思考20秒，提升10万倍性能！

AIGC开放社区

2,314

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

量子位

751

四位图灵奖掌舵，2025智源大会揭示AI进化新路径

量子位

1,120

暂无评论

暂无评论...

世界模型也扩散！训练出的智能体竟然不错

文章摘要

原文和模型

OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺

又融资3亿美元，在ChatGPT的「打压」下，DeepL为何活得更好了？

相关文章

暂无评论

热门网址

热门文章

世界模型也扩散！训练出的智能体竟然不错

文章摘要

原文和模型

OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺

又融资3亿美元，在ChatGPT的「打压」下，DeepL为何活得更好了？

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章