北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

 

文章摘要


【关 键 词】 AI模型强化学习推理能力后训练扩展AI安全

机器之心AIxiv专栏致力于发布学术和技术内容,已报道2000多篇涵盖全球顶级实验室的文章,促进了学术交流。OpenAI的o1模型在数学、代码和长程规划等领域取得显著进步,其成功归因于构建庞大的逻辑数据集和采用AlphaGo中的MCTS及RL方法。o1模型结合强化学习的搜索与学习机制,基于LLM的推理能力,通过迭代式Bootstrap模型产生合理推理过程,并将这些过程融入训练,实现后训练阶段的Scaling。

o1模型在复杂推理任务上表现出色,如在Codeforces排名89百分位,AIME资格赛中排名前500,GPQA基准上超过人类博士水平。其成功得益于后训练阶段RL计算量的增加和测试推理阶段思考时间的扩展。然而,在常规任务如英语考试和语言能力测试上,o1模型的提升并不显著,表明推理能力和指令跟随能力之间存在分离。

后训练扩展律(Post-Training Scaling Laws)的出现为模型推理能力和长程问题能力的深度提升提供了新方向。OpenAI的探索表明,通过RL和Self-play可以实现AGI。自回归模型在数学推理问题上的局限性在于无法自主修正错误,因此需要寻找额外的Scaling Laws。RL带来的训练范式转变和新的Scaling Laws,即Post-Training Scaling Laws,使得训练阶段的计算量与RL探索时LLM Inference的计算量相关,测试阶段模型推理和反思的计算量也影响最终表现。

o1模型的成功关键在于合理使用强化学习的探索,而不仅仅是MCTS。模型通过内部推理过程(Rationales)学会思考问题的关联,而非仅依赖外部示例。STaR和Quiet-STaR技术路线通过迭代式Bootstrap模型产生合理推理过程,并将这些过程融入训练,使模型学会进行推理。这些方法与RL中的策略梯度算法相似,通过探索推理和答案空间,逐步改善推理生成的准确性。

o1模型的发布意味着AI能力的提升不再局限于预训练阶段,还可以通过在Post-Training阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升。此外,模型的自举能力(Bootstrap)得到进一步扩展,不仅加速了性能提升的进程,更有望逐步推动向超级智能(Superintelligence)的迈进。

随着任务问题的逐步复杂,引入Critic Model提供精准反馈变得必要。Critic Model可以扩展监督到更复杂的问题上,缓解了通过推理过程导出正确结果来确定奖励信号的稀疏问题。然而,Critic Model也存在挑战,如如何泛化到更复杂的任务,以及可能存在的Generator-Discriminator-Critique (GDC) gaps。

大模型的天花板在哪里?随着硬件集群的限制和成本的约束,模型参数的增长已逐渐停滞。提升大模型能力的两条技术路线包括:通过合成数据进一步扩展数据和参数规模,以及通过模态混合和模态穿透的方法,借助其他模态增强模型能力。

AI安全的推理链(Chain of Reasoning for AI Safety)为模型的对齐和安全提供了新的视角。通过将安全的规则融入到模型的思维链中,模型能够更好地理解规则的内涵,并提供给监管者理解其思维过程的机会。然而,隐式链式思维推理也增加了某些类型的风险,如模型可能采取捷径或偏离原本设计的任务路线。这要求更严格的监控机制,确保模型在解决复杂问题时不通过捷径来规避核心问题。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 8572字 | 35分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...