文章摘要
【关 键 词】 欠思考现象、AI推理、思路切换、计算资源、准确率提升
最新研究揭示了推理大模型在面对高难度问题时可能表现出的“欠思考”现象,即频繁切换解题思路而缺乏深入探索。这一现象在解决数学竞赛题等复杂任务时尤为明显。研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。
为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。超过70%的错误回答中至少包含一个正确的思路。此外,在超过50%的错误回答中,有10%以上的思路是正确的。基于这些观察,研究人员提出了一个用于量化Underthinking程度的指标(Underthinking Metric)。
为了解决这一问题,研究者提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。TIP会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。实验结果显示,加入TIP能让模型在数学测试上的准确率上升,同时UT Score下降,说明既减少了无效切换,又提高了答案质量。这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。
UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察,提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。并行运行5次模型,从答案中选择tokens最少的。初步实验结果表示,简洁解码在AIME2024测试上能提高6%-7%的准确率,比Consensus Decoding更好也更快。
原文和模型
【原文链接】 阅读原文 [ 1448字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆