标签:折现因子

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...