
文章摘要
【关 键 词】 推理控制、模型优化、进度监控、加速技术、LLM研究
来自特拉维夫大学的研究团队开发了一种新方法,能够监控和控制大型语言模型(LLM)中的思考路径长度。该方法通过引入“思维进度向量”(Thinking Progress Vector, TPV),实时预测模型在推理阶段的相对位置,并通过可视化进度条展示推理动态。通过干预TPV,研究团队能够加速或减速模型的推理过程,实现“超频”和“降频”。超频能够减少不必要的推理步骤,使模型更快地得出结论,同时避免因过度推理导致的性能下降。实验表明,加速后的模型与原始模型相比,使用的token数减少了近6倍,且都得出了正确答案。
在方法上,研究团队专注于执行显式结构化推理的模型,如DeepSeek-R1。这些模型的特点是具有由
一个关键问题是,TPVs是否反映了模型用来跟踪其推理进度的基本机制,或者它们是否仅仅是与进度相关但不起因果作用计算的残余物?为解决这一疑惑,团队对TPV进行干预,通过投影向量的方向将隐藏表示移动量α,修改后的表示具有新的预测值。通过在所有注意力层执行此干预,团队能够干预下一个词的预测,并避免编辑在连续解码步骤中缓存和使用的表示值。实验证明,超频将加速模型的推理阶段,使其更短、更果断。原始序列表现出犹豫和冗长,而TPV加速版本则显著更简洁,使用的token数量减少了近6倍。
在效果上,研究团队在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上测量TPV的有效性。实验结果揭示了四个显著趋势:1、增加α从5到100,无论是否使用基于指令的加速,都会增加模型生成的完成、结束和正确答案的数量,证明TPV的干预方法影响了思考长度。2、将加速基线与基础模型进行比较,基线通过提示响应和基于温度的集成来加速基础模型。在大多数情况下,这两种方法都提高了所有三个指标,证明它们是评估TPV超频方法的强基线。3、与基线方法的比较,尽管基线方法表现优异,且基于温度的基线方法需要大约五倍的计算资源,但TPV的方法通过产生更多正确答案和更明确的响应,在性能上超越了它们。在计算预算较低(如256或512个token)的情况下,TPV的方法增加了80%的正确答案,并且这些正确答案的增加并未以增加错误率为代价,错误率保持不变。4、互补性贡献,尽管实证研究结果证实TPV方法比基线方法更有效,但仍有该方法落后于基于提示的方法的情况。将基于指令的提示技术与TPV的干预方法相结合,并与每种方法单独进行比较,结果显示这种混合方法在大多数情况下始终表现出最佳性能,平均提高了66%,最高提高了285%。这些发现表明TPV方法与提示策略相辅相成,可以有效地与其他加速技术相结合。
对Math-500和GSM8K数据集进行一系列干预实验,通过改变干预参数α来超频模型的思考阶段。结果显示,增加α可以持续缩短思考阶段的长度,使推理过程更加高效。这些发现支持TPV在模型内部计算中充当一种主动控制的信号,而不是被动相关。当使用提示策略在GSM8K数据集上对DeepSeek-R1 LLaMA模型应用TPV方法时,平均token数量从大约500减少到不到350,计算量减少了30%。此外,所有α的正值都相对于基线(α=0)持续加速思考阶段,并提高了其有效性。为进一步评估TPVs在估计模型在其推理过程中位置时的可靠性,研究团队还在两种附加条件下测试了它们的性能:不同的提示策略和不同的推理序列长度。结果显示TPVs在各种指令中仍然有效,这与训练期间使用的原始提示不同。在不同思考序列长度分箱中测试损失始终较低,表明对推理深度的变化具有鲁棒性。
原文和模型
【原文链接】 阅读原文 [ 2093字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★