张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

AI-Agent11个月前发布 almosthuman2014

2,623 0 0

文章摘要

张俊林在其文章中对OpenAI的o1模型进行了深入分析，认为这是自GPT-4以来大模型领域的一个重要进步。o1模型在逻辑推理能力上的提升，使其在发展大模型的不同方向中占据了更根本和重要的位置。与GPT-4o模型相比，o1更专注于探索大模型在人工通用智能（AGI）道路上的潜力和极限。

文章指出，GPT-4o模型试图通过融合不同模态来构建大一统模型，但这对提升大模型的智力水平帮助有限。相反，o1模型通过提升逻辑推理能力，能够解锁更多复杂应用，从而提高大模型应用的天花板。o1模型的能力提升可以通过多种方式反哺GPT-4o模型，如替换基座模型或生成合成数据。

o1模型的核心是自动化的链式思考（COT），这有助于大模型解决复杂逻辑问题。通过大量逻辑数据和类似AlphaGo的蒙特卡洛树搜索（MCTS）加强化学习，o1能够训练大模型快速找到正确的COT路径。随着问题的复杂性增加，o1生成的COT路径越长，推理成本越高，但效果更为重要。

文章还预测，随着o1模型的发展，Prompt工程将逐渐消亡，因为o1本质上自动化了复杂的Prompt构造。此外，尽管Agent概念在理论上火热，但实际应用受限于基座模型的复杂推理能力。o1模型在Agent任务上的表现有所提升，尤其是在简单和中等难度的任务上，但对于复杂任务的准确率仍有待提高。

张俊林认为，OpenAI经常作为行业的引领者，证明了某个方向的可行性，随后其他参与者会跟进。他建议，相比于GPT-4o和视频生成，更应该关注o1模型的发展方向，因为它的资源消耗相对较低，更侧重于算法和数据。

在讨论预训练Scaling Law时，文章指出，大模型的三种基础能力——语言理解与表达、世界知识存储与查询、逻辑推理——都源自训练数据。随着数据量的增加，新知识的获取比例降低，这解释了Scaling Law增长速度放缓的现象。逻辑推理能力的提升尤为困难，因为它在自然数据中的比例较低。为了提高模型的逻辑能力，预训练和后训练阶段通常会增加逻辑推理数据的比例。

最后，文章提到o1模型在训练和推理时的Scaling Law与预训练时有所不同。如果o1采用MCTS技术，那么搜索树的深度和宽度的增加将提高找到正确COT路径的可能性，但同时也会增加算力需求。这表明效果随着算力的增长而增长，但作者认为将此称为RL的Scaling Law可能不太准确。

原文链接：[https://weibo.com/1064649941/5078239682499316?sourceType=weixin &from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316_](https://weibo.com/1064649941/5078239682499316?sourceType=weixin &from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316_)