OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

AIGC动态6小时前发布 AIera
97 0 0
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

 

文章摘要


【关 键 词】 奖励模型对比学习强化学习人工智能开源模型

POLAR是一种全新的奖励模型,采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖,还展现出强大的扩展潜力,使得小模型也能超越规模大数十倍的对手。POLAR的核心在于其策略判别学习(Policy Discriminative Learning)方法,通过对比学习来度量策略模型之间的距离,从而为模型输出提供更精确的奖励信号。

POLAR的预训练语料完全由自动化合成数据构建,从LLM预训练语料中采样出大量文本前缀,并通过策略模型池进行轨迹采样。预训练阶段使用Bradley-Terry Loss来优化目标,使得POLAR能够隐式建模策略分布的差异和距离。在微调阶段,POLAR使用少量偏好数据对齐人类偏好,进一步提升了模型的泛化能力。

POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应,验证集损失随模型参数和计算资源的增加呈幂律关系下降。这表明,分配更多的计算资源将持续带来更好的POLAR性能。POLAR的极佳Scaling效应,体现出其用于构建更通用和更强大的奖励模型的巨大潜力。

在偏好评估和强化微调实验中,POLAR表现出色,仅靠1.8B~7B的参数量,便在下游RL效果上超越70B以上的SOTA奖励模型。例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点。POLAR能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。

POLAR通过对比学习预训练方法,彻底摆脱了对大规模偏好数据的依赖,并且可以大规模无监督扩展。这一方法显著增强了奖励模型的准确性和泛化性,为LLM后训练带来了新的可能。POLAR作为一种全新的、可扩展的奖励模型预训练方法,有望打通RL链路Scaling的最后一环,为通用RFT提供了一种有效实践方案。

原文和模型


【原文链接】 阅读原文 [ 2657字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...