
文章摘要
新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学、编程和科学问题上的基本推理能力。该框架通过模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练,使得模型能够稳定地涌现出高级推理行为,如自我纠正、回溯和验证等。这种方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。
元能力对齐的训练框架基于心理学家皮尔斯提出的经典推理三元组,将人类的推理能力分为假设、观察和规则三个组件。研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证。这种训练方法被称为元能力对齐,它通过参数空间融合,将演绎、归纳和溯因专家合并,然后在数学、编程和社交互动这三种场景上分别使用强化学习训练专家模型。
实验结果显示,基于元能力对齐的训练方法使模型在数学、编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。
这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。
原文和模型
【原文链接】 阅读原文 [ 1966字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆