DeepSeek推理最高提速6倍！开源研究：加装「思维进度条」，计算量减少30%

87 0 0

文章摘要

来自特拉维夫大学的研究团队开发了一种新方法，能够监控和控制大型语言模型（LLM）中的思考路径长度。该方法通过引入“思维进度向量”（Thinking Progress Vector, TPV），实时预测模型在推理阶段的相对位置，并通过可视化进度条展示推理动态。通过干预TPV，研究团队能够加速或减速模型的推理过程，实现“超频”和“降频”。超频能够减少不必要的推理步骤，使模型更快地得出结论，同时避免因过度推理导致的性能下降。实验表明，加速后的模型与原始模型相比，使用的token数减少了近6倍，且都得出了正确答案。

在方法上，研究团队专注于执行显式结构化推理的模型，如DeepSeek-R1。这些模型的特点是具有由和标记明确界定且连续的推理阶段。通过从最终隐藏层提取信息，团队构建了一个数据集，并优化了一个进度提取函数，将隐藏表示映射为其相对位置，形式为一个回归任务。使用线性回归器作为函数来拟合进度属性，将参数向量称为“思考进度向量”（TPV）。为了提高预测效果，团队利用模型的自回归特性，并对预测历史应用指数平滑以减少噪声。在Math-500测试集中进行TPV预测，结果显示，两种方法都成功预测了相对位置，而后者产生了更精确的结果，可用于创建更清晰、更易于解释的进度条。

一个关键问题是，TPVs是否反映了模型用来跟踪其推理进度的基本机制，或者它们是否仅仅是与进度相关但不起因果作用计算的残余物？为解决这一疑惑，团队对TPV进行干预，通过投影向量的方向将隐藏表示移动量α，修改后的表示具有新的预测值。通过在所有注意力层执行此干预，团队能够干预下一个词的预测，并避免编辑在连续解码步骤中缓存和使用的表示值。实验证明，超频将加速模型的推理阶段，使其更短、更果断。原始序列表现出犹豫和冗长，而TPV加速版本则显著更简洁，使用的token数量减少了近6倍。

在效果上，研究团队在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上测量TPV的有效性。实验结果揭示了四个显著趋势：1、增加α从5到100，无论是否使用基于指令的加速，都会增加模型生成的完成、结束和正确答案的数量，证明TPV的干预方法影响了思考长度。2、将加速基线与基础模型进行比较，基线通过提示响应和基于温度的集成来加速基础模型。在大多数情况下，这两种方法都提高了所有三个指标，证明它们是评估TPV超频方法的强基线。3、与基线方法的比较，尽管基线方法表现优异，且基于温度的基线方法需要大约五倍的计算资源，但TPV的方法通过产生更多正确答案和更明确的响应，在性能上超越了它们。在计算预算较低（如256或512个token）的情况下，TPV的方法增加了80%的正确答案，并且这些正确答案的增加并未以增加错误率为代价，错误率保持不变。4、互补性贡献，尽管实证研究结果证实TPV方法比基线方法更有效，但仍有该方法落后于基于提示的方法的情况。将基于指令的提示技术与TPV的干预方法相结合，并与每种方法单独进行比较，结果显示这种混合方法在大多数情况下始终表现出最佳性能，平均提高了66%，最高提高了285%。这些发现表明TPV方法与提示策略相辅相成，可以有效地与其他加速技术相结合。

对Math-500和GSM8K数据集进行一系列干预实验，通过改变干预参数α来超频模型的思考阶段。结果显示，增加α可以持续缩短思考阶段的长度，使推理过程更加高效。这些发现支持TPV在模型内部计算中充当一种主动控制的信号，而不是被动相关。当使用提示策略在GSM8K数据集上对DeepSeek-R1 LLaMA模型应用TPV方法时，平均token数量从大约500减少到不到350，计算量减少了30%。此外，所有α的正值都相对于基线（α=0）持续加速思考阶段，并提高了其有效性。为进一步评估TPVs在估计模型在其推理过程中位置时的可靠性，研究团队还在两种附加条件下测试了它们的性能：不同的提示策略和不同的推理序列长度。结果显示TPVs在各种指令中仍然有效，这与训练期间使用的原始提示不同。在不同思考序列长度分箱中测试损失始终较低，表明对推理深度的变化具有鲁棒性。