
文章摘要
【关 键 词】 奖励模型、对比学习、强化学习、人工智能、开源模型
POLAR是一种全新的奖励模型,采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖,还展现出强大的扩展潜力,使得小模型也能超越规模大数十倍的对手。POLAR的核心在于其策略判别学习(Policy Discriminative Learning)方法,通过对比学习来度量策略模型之间的距离,从而为模型输出提供更精确的奖励信号。
POLAR的预训练语料完全由自动化合成数据构建,从LLM预训练语料中采样出大量文本前缀,并通过策略模型池进行轨迹采样。预训练阶段使用Bradley-Terry Loss来优化目标,使得POLAR能够隐式建模策略分布的差异和距离。在微调阶段,POLAR使用少量偏好数据对齐人类偏好,进一步提升了模型的泛化能力。
POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应,验证集损失随模型参数和计算资源的增加呈幂律关系下降。这表明,分配更多的计算资源将持续带来更好的POLAR性能。POLAR的极佳Scaling效应,体现出其用于构建更通用和更强大的奖励模型的巨大潜力。
在偏好评估和强化微调实验中,POLAR表现出色,仅靠1.8B~7B的参数量,便在下游RL效果上超越70B以上的SOTA奖励模型。例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点。POLAR能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。
POLAR通过对比学习预训练方法,彻底摆脱了对大规模偏好数据的依赖,并且可以大规模无监督扩展。这一方法显著增强了奖励模型的准确性和泛化性,为LLM后训练带来了新的可能。POLAR作为一种全新的、可扩展的奖励模型预训练方法,有望打通RL链路Scaling的最后一环,为通用RFT提供了一种有效实践方案。
原文和模型
【原文链接】 阅读原文 [ 2657字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★