为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

文章摘要
普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF(基于人类反馈的强化学习)中的有效性,并揭示了仅依赖准确度评估奖励模型的局限性。研究表明,奖励模型的准确度与其作为教师的有效性并不直接相关,奖励方差在优化过程中扮演了关键角色。即使奖励模型完全准确,如果其导致的奖励方差较低,RLHF目标的优化速度会显著减慢,甚至可能不如准确度较低但奖励方差较高的模型。这一发现表明,奖励模型的设计需要兼顾准确度和奖励方差,以确保优化效率。
研究进一步指出,奖励方差与准确度是独立的指标,准确度仅反映奖励模型对不同输出的排序能力,而奖励方差则决定了目标图景的平坦度。低奖励方差会导致策略梯度方法的效率下降,即使奖励模型完全准确,也可能无法有效推动优化。此外,奖励方差还依赖于具体的语言模型和初始策略,这意味着不同的策略可能需要不同的奖励模型来实现最佳优化效果。
实验部分验证了理论分析的结论。研究团队通过策略梯度方法训练语言模型,发现奖励方差与奖励最大化率密切相关。在某些情况下,使用代理奖励模型的效果甚至优于直接优化真实奖励,尤其是在初始训练阶段。此外,实验还表明,对于不同的语言模型,能够产生最高真实奖励的奖励模型会因初始策略的不同而变化,这进一步支持了奖励模型需要根据具体策略进行选择的观点。
总体而言,这项研究为RLHF中奖励模型的设计提供了新的视角,强调了奖励方差在优化过程中的重要性。准确度虽然是奖励模型的一个重要属性,但并非唯一决定因素,奖励模型需要能够诱导出足够的方差,才能实现高效优化。这一发现对未来的RLHF研究和实践具有重要指导意义,提示研究者在设计奖励模型时需综合考虑准确度、奖励方差以及具体的语言模型和策略。
原文和模型
【原文链接】 阅读原文 [ 2666字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆