流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

 

文章摘要


【关 键 词】 深度学习强化学习样本效率流式障碍算法优化

阿尔伯塔大学等机构的研究者提出了一种名为stream-x的深度强化学习算法,旨在解决流式深度强化学习中的样本效率问题,即流式障碍。流式障碍是指流式深度强化学习在没有存储样本的情况下,仅使用即时单个样本进行更新,导致学习不稳定和失败。stream-x算法是第一类能够克服预测和控制流式障碍,并匹配批量强化学习样本效率的深度强化学习算法。

stream-x算法包括Stream TD(λ)、Stream Q(λ)和Stream AC(λ),统称为stream-x算法。这些算法利用资格迹来解决流式障碍问题,无需使用重放缓冲区、批量更新或目标网络,即可从最新的经验中进行学习。研究证明了流式深度强化学习可以是稳定的,并且在样本效率上可与批量强化学习相当。

为了提高流式学习方法的样本效率,研究提出了两种技术:1)稀疏初始化;2)资格迹。通过引入稀疏初始化技术和优化器,使用有效步长控制更新大小,stream-x算法能够在使用样本后将其丢弃,从而提高样本效率。

实验结果表明,stream-x算法能够克服流式障碍,在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar和Atari 2600上取得了与批量RL相当甚至更好的性能。特别是在一些复杂环境中,stream AC算法达到了已知的最佳性能。与经典的流方法(如Classic Q)和批处理RL方法的流式版本(如PPO1)相比,stream-x算法(如stream Q)克服了流式障碍,并与批处理RL算法竞争,证明了其稳定性和鲁棒性。

这项研究得到了强化学习之父Richard Sutton的转发和评论,认为这是第一批熟悉流式强化学习算法的研究人员,认真地解决深度强化学习问题,而不受批量导向的软件和批量导向的监督学习思维方式的过度影响。研究还展示了stream-x算法在不同环境中克服流式障碍的有效性,以及在长时间运行中的稳定性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1681字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...