
文章摘要
【关 键 词】 AI、量子叠加、思维链、Transformer、推理
田渊栋团队的最新研究揭示了AI模型在处理复杂任务时,通过连续思维链的并行搜索机制,能够显著提升推理效率。传统的大语言模型(LLM)通常采用离散思维链进行推理,即通过生成文本形式的中间步骤来解决问题。然而,这种方法在处理诸如有向图可达性等复杂任务时效率低下,需要O(n^2)步解码,且容易陷入局部解。相比之下,连续思维链通过使用连续隐向量进行推理,能够同时编码多个候选图路径,类似于量子叠加态,从而实现并行搜索。
团队证明了,对于具有n个顶点且直径为D的图,一个包含D步连续思维链的两层Transformer可以解决有向图可达性问题,而具有离散思维链的恒定深度Transformer的最佳已知结果需要O(n^2)个解码步骤。这一发现为连续思维链的理论支持提供了重要依据。具体而言,离散思维链类似于深度优先搜索(DFS),每次只能选择单一路径,导致步骤多且容易受限;而连续思维链则类似于广度优先搜索(BFS),能够同时处理多个路径,显著提升了推理效率。
在实验设计中,团队引入了一种注意力选择器机制,使模型能够根据当前token选择性地关注特定位置,确保信息的有效提取。这一机制类似于导航仪,帮助模型在信息堆中精准定位关键节点。此外,团队设计了两层连续思维Transformer,分别用于“整理”边的信息和“并行探索”所有可能路径。第一层Transformer通过注意力头收集边的源节点和目标节点信息,第二层Transformer则根据当前的叠加态寻找下一步能到达的新节点。最后,MLP层用于过滤噪声和平衡权重,确保模型能够公平地考虑每一个可能的路径。
实验结果显示,采用连续思维链的2层Transformer模型在解决ProsQA问题时表现出色,准确率接近100%,而12层的离散思维链模型准确率仅为83%,无思维链基线模型只能解决约75%的任务。这一结果进一步证实了连续思维链在提升模型推理效率方面的显著优势。
除了在科研领域的贡献,田渊栋还是一位科幻小说家。他的第一部作品《破晓之钟》于2024年6月正式出版,讲述了几个初出茅庐的科学家如何面对来自外太空的挑战和处理人类危机的故事。该书的核心观点是“AI只是在模仿数据,却让人误以为它有智慧”,这一观点在ChatGPT爆火之前便已提出,精准预言了大语言模型的本质。田渊栋表示,他的第二部小说正在构思中,将继续探讨“群体意识”和“星际殖民”等议题,核心依然是人类的选择与挣扎。
总体而言,田渊栋团队的研究不仅在AI推理效率提升方面取得了重要突破,还通过科幻小说的形式,深入探讨了AI与人类社会的复杂关系。
原文和模型
【原文链接】 阅读原文 [ 2039字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★