强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

AIGC动态15小时前发布 AIera
26 0 0
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

 

文章摘要


【关 键 词】 强化学习预训练微调意图推理生成模型

大规模预训练微调的模式在机器学习领域取得了显著成功,但在强化学习(RL)中的应用仍面临挑战。强化学习需要对时间和意图进行推理,传统方法在处理长时间推理和用户意图时存在局限性。伯克利团队提出的新方法InFOM(Intention-Conditioned Flow Occupancy Models)通过结合流匹配和占据模型,解决了这些问题。InFOM不仅能够预测多个未来步骤,还能适应用户的不同意图,从而在多个任务中实现超强迁移。

InFOM的核心在于将意图编码为潜在变量,并通过流匹配来预测未来状态的访问概率。模型通过最大化数据似然进行训练,能够高效适应特定任务。与传统方法相比,InFOM在奖励稀疏或半稀疏的复杂任务中表现更为出色,能够更有效地利用高奖励状态。此外,InFOM提供了一种更简单、更高效的意图推理方式,性能优于无监督技能发现或后继特征学习等方法。

在实验中,InFOM在36个基于状态的任务和4个基于图像的任务中,与八个基线方法进行了比较。结果显示,InFOM在八个领域中的六个领域表现与基线方法相当或更好,尤其在更具挑战性的任务中,新算法在最佳基线方法上取得了36%更高的成功率。此外,InFOM在直接使用RGB图像作为输入时,超越了最强基线31%。

与现有的意图编码机制相比,InFOM在4项任务中的3项上,以更简单的方法超越了先前的意图编码方法。这表明InFOM不仅提高了性能,还简化了训练流程,无需依赖复杂的离线强化学习流程。

总体而言,InFOM通过结合流匹配和占据模型,提供了一种新的强化学习预训练和微调范式,能够在多个任务中实现高效迁移和意图推理。这一方法在复杂任务中的出色表现,为强化学习领域的研究和应用提供了新的方向。

原文和模型


【原文链接】 阅读原文 [ 1845字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...