清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

AIGC动态23小时前发布 AIera
164 0 0
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

 

文章摘要


【关 键 词】 模型优化计算策略性能提升奖励模型小模型优势

多机构联合研究发现,通过优化测试时计算扩展(TTS)策略,小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测试中表现优于GPT-4o,3B模型超越405B模型,7B模型则超过o1和DeepSeek-R1等顶尖模型。这一突破性进展揭示了计算资源分配策略对模型推理能力的关键影响。

研究团队提出奖励感知计算最优TTS策略,通过整合奖励函数动态调整计算资源分配。实验表明,基于搜索的方法在小型模型(<7B)中效果显著,而大型模型(>72B)更适合使用Best-of-N方法奖励模型(PRM)的过程监督能力被证实为影响TTS效果的核心因素,Qwen2.5-Math PRM因其训练数据经过LLM-as-a-judge处理,展现出更强的泛化能力。

针对问题难度分级,研究发现绝对阈值法比传统分位数法更有效。将问题分为简单(50%-100% Pass@1)、中等(10%-50%)和困难(0%-10%)三个等级后,不同规模的模型展现出差异化策略需求:小型模型在简单问题上适用BoN方法,困难问题则需要束搜索;中型模型在中等难度任务中DVTS方法最优;而72B大模型在所有难度级别均适合BoN方法。

在模型规模对比实验中,采用计算最优TTS的1B模型以512计算预算时,推理FLOPS减少100-1000倍仍能超越405B模型。值得注意的是,TTS策略相比传统思维链(CoT)方法提升性能154.6%,效率比多数投票高256倍。然而,随着模型规模扩大,TTS的边际效益递减,表明其效果与模型基础推理能力呈负相关。

研究还揭示了PRM存在的潜在偏差:基于DeepSeek数据训练的PRM生成响应长度是Mistral版本的两倍,这种偏差源于训练数据的特性差异。同时,不同PRM对投票方法敏感性不同,Qwen2.5-Math PRM因训练时清除了错误中间步骤标记,表现出更强的稳定性。这些发现为优化PRM设计提供了新方向,强调过程监督能力提升比单纯增加参数量更重要。

原文和模型


【原文链接】 阅读原文 [ 3313字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...