姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑一致性

1,797 0 0

文章摘要

清华大学交叉信息研究院的姚期智院士及其团队提出了一种新的大模型推理框架——思维图（DoT），旨在使大型语言模型（LLM）的思考过程更接近人类的推理方式。该框架通过在单一模型内构建有向无环图（DAG）来模拟迭代推理过程，每个节点代表一个命题、批评、精炼或验证，而边则表示它们之间的逻辑关系或依赖关系。这种无环的特性避免了循环依赖，使得推理过程更加真实地反映合理的逻辑推导。

与现有的链式推理（CoT）相比，DoT能够更好地捕捉人类推理的复杂性，因为它不是将推理过程表示为线性序列。此外，与需要外部控制机制或多个模型协作的ToT和GoT不同，DoT的训练和部署更为简单，因为它完全在单一模型内进行。

在DoT框架中，有三个关键角色：提议者、批评者和总结者。提议者负责生成命题或推理步骤，批评者评估命题并识别错误，总结者则将经过验证的命题综合成一个连贯的思维链。这些角色通过特殊token在模型输出中被明确定义，使得模型能够在这些角色之间无缝切换。

DoT的训练涉及使用格式化为DoT结构的训练样例，包括角色特定token和DAG表示。这种方法简化了部署，消除了对多LLM协作或外部控制机制的需求，同时与标准LLM训练范式保持一致，便于集成到现有工作流程中。

此外，研究团队还为DoT框架提供了严格的数学基础，利用拓扑斯理论（Topos Theory）对推理过程进行了形式化描述。在这种数学框架中，命题被建模为拓扑中终端对象的子对象，逻辑关系和推理步骤表示为态射，批评和改进过程分别对应到子对象分类器的态射和命题间的态射。

这项研究由张伊凡、袁洋和姚期智共同完成。张伊凡是清华大学交叉信息学院的博士研究生，袁洋是该院的助理教授，而姚期智是中国科学院院士、清华大学交叉信息研究院院长，也是首位获得图灵奖的亚裔学者。

DoT是对一年前的累积推理（CR）方法的进一步深化。CR方法涉及不同专业化大语言模型的迭代过程，而DoT则直接在单一模型内构建有向无环图，不依赖于外部控制机制或多个模型，使得训练和部署更加简单。此外，DoT生成的批评反馈是自然语言形式的，而不是像CR那样只给出二值信号，这有助于模型更有效地改进命题。