北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

AIGC动态11个月前发布 almosthuman2014

2,939 0 0

文章摘要

机器之心AIxiv专栏致力于发布学术和技术内容，已报道2000多篇涵盖全球顶级实验室的文章，促进了学术交流。OpenAI的o1模型在数学、代码和长程规划等领域取得显著进步，其成功归因于构建庞大的逻辑数据集和采用AlphaGo中的MCTS及RL方法。o1模型结合强化学习的搜索与学习机制，基于LLM的推理能力，通过迭代式Bootstrap模型产生合理推理过程，并将这些过程融入训练，实现后训练阶段的Scaling。

o1模型在复杂推理任务上表现出色，如在Codeforces排名89百分位，AIME资格赛中排名前500，GPQA基准上超过人类博士水平。其成功得益于后训练阶段RL计算量的增加和测试推理阶段思考时间的扩展。然而，在常规任务如英语考试和语言能力测试上，o1模型的提升并不显著，表明推理能力和指令跟随能力之间存在分离。

后训练扩展律（Post-Training Scaling Laws）的出现为模型推理能力和长程问题能力的深度提升提供了新方向。OpenAI的探索表明，通过RL和Self-play可以实现AGI。自回归模型在数学推理问题上的局限性在于无法自主修正错误，因此需要寻找额外的Scaling Laws。RL带来的训练范式转变和新的Scaling Laws，即Post-Training Scaling Laws，使得训练阶段的计算量与RL探索时LLM Inference的计算量相关，测试阶段模型推理和反思的计算量也影响最终表现。

o1模型的成功关键在于合理使用强化学习的探索，而不仅仅是MCTS。模型通过内部推理过程（Rationales）学会思考问题的关联，而非仅依赖外部示例。STaR和Quiet-STaR技术路线通过迭代式Bootstrap模型产生合理推理过程，并将这些过程融入训练，使模型学会进行推理。这些方法与RL中的策略梯度算法相似，通过探索推理和答案空间，逐步改善推理生成的准确性。

o1模型的发布意味着AI能力的提升不再局限于预训练阶段，还可以通过在Post-Training阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升。此外，模型的自举能力（Bootstrap）得到进一步扩展，不仅加速了性能提升的进程，更有望逐步推动向超级智能（Superintelligence）的迈进。

随着任务问题的逐步复杂，引入Critic Model提供精准反馈变得必要。Critic Model可以扩展监督到更复杂的问题上，缓解了通过推理过程导出正确结果来确定奖励信号的稀疏问题。然而，Critic Model也存在挑战，如如何泛化到更复杂的任务，以及可能存在的Generator-Discriminator-Critique (GDC) gaps。

大模型的天花板在哪里？随着硬件集群的限制和成本的约束，模型参数的增长已逐渐停滞。提升大模型能力的两条技术路线包括：通过合成数据进一步扩展数据和参数规模，以及通过模态混合和模态穿透的方法，借助其他模态增强模型能力。

AI安全的推理链（Chain of Reasoning for AI Safety）为模型的对齐和安全提供了新的视角。通过将安全的规则融入到模型的思维链中，模型能够更好地理解规则的内涵，并提供给监管者理解其思维过程的机会。然而，隐式链式思维推理也增加了某些类型的风险，如模型可能采取捷径或偏离原本设计的任务路线。这要求更严格的监控机制，确保模型在解决复杂问题时不通过捷径来规避核心问题。