无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

1,024 0 0

文章摘要

新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架，旨在提升大型推理模型在数学、编程和科学问题上的基本推理能力。该框架通过模仿人类推理的心理学原理，将演绎、归纳与溯因能力融入模型训练，使得模型能够稳定地涌现出高级推理行为，如自我纠正、回溯和验证等。这种方法不仅提升了模型在数学与编程任务上的性能，还展现出跨领域的可扩展性。

元能力对齐的训练框架基于心理学家皮尔斯提出的经典推理三元组，将人类的推理能力分为假设、观察和规则三个组件。研究者据此构建了一个程序，能自动化生成上述三类推理的实例，用于大模型的训练，并对大模型输出的结果自动进行验证。这种训练方法被称为元能力对齐，它通过参数空间融合，将演绎、归纳和溯因专家合并，然后在数学、编程和社交互动这三种场景上分别使用强化学习训练专家模型。

实验结果显示，基于元能力对齐的训练方法使模型在数学、编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上，并通过特定领域强化学习获得进一步增益。在7B和32B规模下，元能力对齐和合并的模型始终优于指令微调的基线模型，合并后的模型取得了最高增益。尤其是在数学任务上，合并三种推理模式后，训练好的模型性能提升了11.1%。

这种模块化的训练方式，借鉴了混合专家模型，同时使用来自心理学对人类推理本质的洞见，让大模型的每个专家进行专业分工，擅长一种推理方式，从而能够用小数据集完成快速的性能提升。该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法，有助于构建可解释且鲁棒的推理模型。