田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

 

文章摘要


【关 键 词】 语言模型思维链推理能力连续思维潜在空间

在认知科学领域,关于语言是否用于思考或交流的辩论一直存在。随着大型语言模型(LLM)和思维链(Chain of Thought, CoT)的兴起,语言已成为机器推理的默认媒介。然而,语言空间可能并非总是最适合推理的环境。为了探索LLM在不受限制的潜在空间中的推理潜力,Meta和加州大学圣地亚哥分校的研究者提出了Coconut(连续思维链),这是一种新的范式,允许LLM在潜在空间而非自然语言中进行推理。

Coconut通过简化CoT过程,不再将隐藏状态映射到语言token,而是直接使用最后的隐藏状态作为下一个token的输入嵌入。这种修改使得推理从语言空间中解放出来,并且由于连续思维是完全可微的,可以通过梯度下降进行端到端优化。研究者采用了多阶段训练策略,利用语言推理链指导训练过程。

实验表明,Coconut增强了LLM的推理能力,特别是在数学推理(GSM8k)和逻辑推理(ProntoQA和ProsQA)方面。Coconut在连续思维中编码多个潜在下一步,实现类似广度优先搜索的推理过程。尽管初始决策可能不正确,模型可以在连续思维中保持多种选项,并通过推理逐步排除错误路径。

研究还发现,连续思维的链式组合增强了推理能力,类似于CoT中的链式效应。在规划密集型任务中,潜在空间推理优于语言推理。模型需要指导来学习潜在空间推理,而连续思维是推理的高效表示。Coconut允许通过控制潜在思维的数量来分析潜在推理过程,表明更多的推理发生在潜在空间中时,模型的规划能力得到提升。

最后,研究探讨了潜在空间在规划中的优势,发现模型通过延迟决策和在潜在推理过程中不断探索,最终将搜索推向树的终端状态,更容易区分正确和错误的节点。这些发现突出了利用潜在空间进行规划的优势,为LLM的推理能力提供了新的视角。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3823字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...