清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力

AIGC动态6小时前发布 QbitAI
27 0 0
清华&通院推出

 

文章摘要


【关 键 词】 自我博弈推理能力代码生成数学推理模型优化

“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出,其核心思想是让模型在无需外部数据的情况下,通过生成并解决任务来学习推理。在测试中,经过“绝对零”训练的模型表现优于使用专家标注样本训练的模型,尤其在数学推理代码生成任务上取得了显著进步。

“绝对零”采用了一种自我博弈的学习范式,模型在其中扮演两个角色:Proposer(出题者)和Solver(解题者)。Proposer负责生成新的推理任务,而Solver则负责解决这些任务。通过这种交替和协同,模型能够自主构建学习任务分布,并在求解任务的过程中不断提升推理能力。所有推理任务被统一表示为(p,i,o)的三元组形式,其中p是程序代码,i是输入数据,o是输出结果。这种形式化的表示将抽象的推理任务转化为具体的程序设计问题,使模型能够通过生成和操作代码来完成任务的生成和求解。

“绝对零”将推理任务划分为三种基本类型:溯因(Abduction)、演绎(Deduction)和归纳(Induction)。溯因任务要求模型根据已知的程序和输出反推输入;演绎任务要求模型根据已知的程序和输入推导输出;归纳任务则要求模型根据一组输入输出对生成统一的程序。在训练开始前,模型需要一个初始任务集合作为种子,这些种子任务通过基础语言模型生成。在每一轮迭代中,Proposer会根据当前任务集合生成新的任务,并控制任务的难度和新颖度,以确保任务对Solver既有意义又具备挑战性。

生成的任务会经过代码执行器的验证,确保其语法正确性、安全性和确定性。通过验证的任务会被存入任务池中,供Solver解决。Solver在解决任务时,会根据任务类型采用不同的策略,并利用语言模型已有的知识辅助求解。Solver的解决方案也会经过验证,成功解决任务会获得奖励,失败则不会获得奖励或受到惩罚。这些奖励信号会反馈给模型,帮助其优化任务生成和求解能力。

在编程任务和数学推理任务上的测试表明,“绝对零”显著提升了模型的性能。在编程任务上,经过“绝对零”训练的Qwen-2.5-7B-Coder模型在HumanEval+、MBPP+和LCB数据集上的通过率分别提高了3%、0.3%和11.8%。在数学推理任务上,模型在6个数据集上的平均准确率达到了39.1%,比未经训练的baseline高出15.2个百分点。此外,研究还发现,“绝对零”的性能提升与模型规模呈正相关,参数越多的模型,训练后的性能提升也越大。

总体而言,“绝对零”通过自我博弈的方式,有效提升了预训练大模型的推理能力,尤其在代码生成和数学推理任务上表现突出。该方法不仅减少了对外部数据的依赖,还通过任务生成和求解的协同优化,实现了模型的自我进化。

原文和模型


【原文链接】 阅读原文 [ 2247字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...