推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

AIGC动态2天前发布 AIera
102 0 0
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

 

文章摘要


【关 键 词】 推理模型过度思考缺失前提批判性思维资源浪费

推理模型在解决复杂问题时表现出色,但在面对「缺失前提」(MiP)问题时,往往陷入「过度思考」的困境,导致回答长度激增和计算资源浪费。这种现象被称为「缺失前提下的过度思考」(MiP-Overthinking)。研究发现,推理模型在面对MiP问题时,生成的回答长度比一般过度思考多2到4倍的token,但这些额外的token并未帮助模型识别问题的无解性。相比之下,非推理模型在MiP问题上的表现更为高效,生成更短的回答,并能更快识别出缺失前提,表现出更强的鲁棒性。

推理模型在明确问题和MiP问题上的反应截然不同。对于明确问题,它们通常能稳定地进行「思维链」推理;但在MiP问题上,它们往往陷入「自我怀疑循环」,反复重审问题、猜测用户意图,导致生成的token数激增。尽管推理模型在早期阶段能识别出MiP的存在,但它们往往犹豫不决,继续输出无效的思考内容,缺乏果断中止无效推理的批判性思维能力。

为了深入研究这一现象,研究团队设计了一套可控的MiP问题,涵盖了不同难度的数学数据集。通过分析模型在MiP问题上的响应长度、放弃率和准确率,发现推理模型在MiP问题上的响应长度显著增加,但放弃率却较低。这表明推理模型在面对MiP问题时,无法有效识别问题的无解性,继续生成冗长的回答。

进一步的分析揭示了推理模型在MiP问题上的思考模式。模型在推理过程中频繁使用「alternatively」、「wait」、「check」等token,表明它们在思考过程中存在大量冗余。此外,模型在MiP问题上的响应步骤数大幅增加,但这些额外的步骤并未帮助模型得出正确的结论,反而增加了无效的思考内容。

研究还发现,推理模型在推理过程中能够识别出MiP问题的不可解性,但它们缺乏批判性思维能力,无法果断中止无效推理。这种现象在基于强化学习(RL)和基于监督微调(SFT)的推理模型中都有体现,表明当前的推理模型在训练过程中可能存在长度约束不足的问题,导致模型在推理过程中过度思考。

总的来说,推理模型在面对MiP问题时表现出显著的过度思考现象,生成冗长的回答却无法有效识别问题的无解性。这种现象揭示了当前推理模型在批判性思维方面的不足,表明在实现真正的通用人工智能(AGI)之前,仍需解决推理模型在高效思考和资源利用方面的关键问题。

原文和模型


【原文链接】 阅读原文 [ 4751字 | 20分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...