无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

AIGC动态2天前发布 AIera
118 0 0
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

 

文章摘要


【关 键 词】 AI推理训练数学编程

新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学编程和科学问题上的基本推理能力。该框架通过模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练,使得模型能够稳定地涌现出高级推理行为,如自我纠正、回溯和验证等。这种方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。

元能力对齐的训练框架基于心理学家皮尔斯提出的经典推理三元组,将人类的推理能力分为假设、观察和规则三个组件。研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证。这种训练方法被称为元能力对齐,它通过参数空间融合,将演绎、归纳和溯因专家合并,然后在数学、编程和社交互动这三种场景上分别使用强化学习训练专家模型。

实验结果显示,基于元能力对齐的训练方法使模型在数学、编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。

这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。

原文和模型


【原文链接】 阅读原文 [ 1966字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...