文章摘要
提升大模型推理性能通常依赖于大量数据和算力,但李飞飞团队提出了一种新方法,仅使用1000个样本进行微调,并引入预算强制技术(budget forcing),在测试时控制计算量即可显著提升推理能力。该研究证明,这种方法可实现模型性能随测试计算量增加而提升,并成功复现了OpenAI的测试时扩展行为。
团队构建了一个名为s1K的数据集,包含1000个高质量、多样化且具有挑战性的推理问题,覆盖50个领域,这些问题附有推理轨迹和答案。研究人员从59029个候选问题中经过多阶段筛选,确保数据在质量、难度和多样性上达到最佳平衡。随后,他们在预训练模型上使用s1K数据集进行监督微调(SFT),并在测试阶段通过预算强制技术调节模型思考深度。这一技术通过限制生成token数量或延长推理时间(如追加“Wait”)来引导模型自我修正错误,从而提高推理准确性。
实验结果显示,基于上述方法开发的s1-32B模型在多个基准测试中超越了闭源模型OpenAI o1-preview,并表现出显著的样本效率优势。尽管DeepSeek-r1等模型也实现了高推理性能,但它们需要数百倍的训练数据。相比之下,s1-32B不仅节省了训练资源,还在AIME24等任务中与Gemini 2.0 Thinking API持平,验证了蒸馏过程的有效性。
此外,消融实验进一步证明了高质量、多样化和高难度数据选择标准的重要性。例如,随机选取高质量样本或仅关注多样性的策略均未达到理想效果,表明精心挑选小规模数据集的重要性。同时,预算强制方法优于其他测试时扩展策略(如拒绝采样),通过精确控制计算量,避免模型陷入重复或无效思考。
研究还指出,虽然预算强制技术存在局限性(如性能增长最终趋于平缓),但它为未来研究提供了明确方向,包括改进扩展方法以结合顺序和并行策略,以及探索更高效的测试时计算扩展手段。总体而言,这项研究表明,强大的推理能力无需依赖海量数据和复杂训练方法,为大模型优化提供了新的思路。
原文和模型
【原文链接】 阅读原文 [ 2725字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 qwen-max-latest
【摘要评分】 ★★★★★