
文章摘要
【关 键 词】 强化学习、大语言模型、自动课程、自我改进、ExIt方法
Meta超级实验室「Meta Superintelligence Labs,MSL」的三位成员上传ArXiv论文,探索利用强化学习(RL)高效微调大语言模型(LLM),使LLM在推理时实现迭代自我改进。
训练具备迭代自我改进能力的模型成本高,传统训练模型执行K步自我改进会使训练回合的轨迹步数膨胀。为此,研究者提出基于RL的自动课程学习方法——探索迭代(ExIt)。该方法通过「回收利用」大语言模型先前回合的回答作为新起点,用于自我改进或自我发散,扩展和多样化训练分布。同时结合性能强大且减少资源需求的DeepSeek强化学习微调方法GRPO,GRPO使用一组G条蒙特卡洛轨迹估计每个初始提示的基线,在此过程中产生「可学习性分数」。ExIt的课程机制会优先抽取GRPO中回报方差更高的部分历史,通过自举任务空间的自动课程,让模型学会多步自我改进,且训练仅需单步任务。为抵消强化学习减少输出多样性的倾向,纳入发散改进组件,以概率 _p__ div使自我迭代步成为自我发散步,增加任务空间覆盖范围。
在单轮和多轮场景以及MLE – bench中考察ExIt的影响,结果显示,与GRPO相比,ExIt产生的模型在推理时自我改进能力更强。在测试时,ExIt可进行超过训练典型深度的自我迭代,在MLE – bench上相对GRPO的提升约22%。实验还表明,仅使用课程学习的基线方法会减少训练中不同任务实例数量,降低任务多样性,而ExIt的自我迭代步骤能恢复部分丢失的多样性,完整的ExIt方法在任务空间探索中最具多样性,其起始代码多样性大幅增加。
论文第一作者Minqi Jiang今年1月加入Meta担任高级研究科学家,从泛化、人机协同与开放式学习三个视角研究「既有用、又符合人类价值」的智能体,他有丰富的研究和工作经历。
原文和模型
【原文链接】 阅读原文 [ 1642字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆