清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

575 0 0

文章摘要

“绝对零”是一种通过自我博弈训练预训练大模型的新方法，旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出，其核心思想是让模型在无需外部数据的情况下，通过生成并解决任务来学习推理。在测试中，经过“绝对零”训练的模型表现优于使用专家标注样本训练的模型，尤其在数学推理和代码生成任务上取得了显著进步。

“绝对零”采用了一种自我博弈的学习范式，模型在其中扮演两个角色：Proposer（出题者）和Solver（解题者）。Proposer负责生成新的推理任务，而Solver则负责解决这些任务。通过这种交替和协同，模型能够自主构建学习任务分布，并在求解任务的过程中不断提升推理能力。所有推理任务被统一表示为(p,i,o)的三元组形式，其中p是程序代码，i是输入数据，o是输出结果。这种形式化的表示将抽象的推理任务转化为具体的程序设计问题，使模型能够通过生成和操作代码来完成任务的生成和求解。

“绝对零”将推理任务划分为三种基本类型：溯因（Abduction）、演绎（Deduction）和归纳（Induction）。溯因任务要求模型根据已知的程序和输出反推输入；演绎任务要求模型根据已知的程序和输入推导输出；归纳任务则要求模型根据一组输入输出对生成统一的程序。在训练开始前，模型需要一个初始任务集合作为种子，这些种子任务通过基础语言模型生成。在每一轮迭代中，Proposer会根据当前任务集合生成新的任务，并控制任务的难度和新颖度，以确保任务对Solver既有意义又具备挑战性。

生成的任务会经过代码执行器的验证，确保其语法正确性、安全性和确定性。通过验证的任务会被存入任务池中，供Solver解决。Solver在解决任务时，会根据任务类型采用不同的策略，并利用语言模型已有的知识辅助求解。Solver的解决方案也会经过验证，成功解决任务会获得奖励，失败则不会获得奖励或受到惩罚。这些奖励信号会反馈给模型，帮助其优化任务生成和求解能力。

在编程任务和数学推理任务上的测试表明，“绝对零”显著提升了模型的性能。在编程任务上，经过“绝对零”训练的Qwen-2.5-7B-Coder模型在HumanEval+、MBPP+和LCB数据集上的通过率分别提高了3%、0.3%和11.8%。在数学推理任务上，模型在6个数据集上的平均准确率达到了39.1%，比未经训练的baseline高出15.2个百分点。此外，研究还发现，“绝对零”的性能提升与模型规模呈正相关，参数越多的模型，训练后的性能提升也越大。

总体而言，“绝对零”通过自我博弈的方式，有效提升了预训练大模型的推理能力，尤其在代码生成和数学推理任务上表现突出。该方法不仅减少了对外部数据的依赖，还通过任务生成和求解的协同优化，实现了模型的自我进化。