OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

851 0 0

文章摘要

POLAR是一种全新的奖励模型，采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖，还展现出强大的扩展潜力，使得小模型也能超越规模大数十倍的对手。POLAR的核心在于其策略判别学习（Policy Discriminative Learning）方法，通过对比学习来度量策略模型之间的距离，从而为模型输出提供更精确的奖励信号。

POLAR的预训练语料完全由自动化合成数据构建，从LLM预训练语料中采样出大量文本前缀，并通过策略模型池进行轨迹采样。预训练阶段使用Bradley-Terry Loss来优化目标，使得POLAR能够隐式建模策略分布的差异和距离。在微调阶段，POLAR使用少量偏好数据对齐人类偏好，进一步提升了模型的泛化能力。

POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应，验证集损失随模型参数和计算资源的增加呈幂律关系下降。这表明，分配更多的计算资源将持续带来更好的POLAR性能。POLAR的极佳Scaling效应，体现出其用于构建更通用和更强大的奖励模型的巨大潜力。

在偏好评估和强化微调实验中，POLAR表现出色，仅靠1.8B～7B的参数量，便在下游RL效果上超越70B以上的SOTA奖励模型。例如，在STEM任务中，POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点。POLAR能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。

POLAR通过对比学习预训练方法，彻底摆脱了对大规模偏好数据的依赖，并且可以大规模无监督扩展。这一方法显著增强了奖励模型的准确性和泛化性，为LLM后训练带来了新的可能。POLAR作为一种全新的、可扩展的奖励模型预训练方法，有望打通RL链路Scaling的最后一环，为通用RFT提供了一种有效实践方案。