万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

1,961 0 0

文章摘要

硅谷巨头们在大模型Scaling Law的争议中采取了不同策略。谷歌推出了新一代模型Gemini 2.0 Flash，而OpenAI展示了其“满血版”o1和o1 pro mode，证明模型能力未达极限。Anthropic的Claude 3.5 Opus被用作内部数据合成和强化学习奖励建模的“战略武器”，提升了模型性能而未增加推理成本。

o1模型在推理阶段采用思维链（Chain of Thought，CoT）方法，将推理分解为多个步骤，能够规划推理步骤、评估中间结果，并在出错时回溯。o1 pro则采用自洽性或多数投票的方法。o1生成单一思维链的过程可能涉及强化学习中的“过程奖励模型”（Process Reward Model，PRM），类似于奖励机制，可在验证和生成间切换。

OpenAI为训练o1构建了“草莓训练”系统，通过蒙特卡洛树生成合成数据，模型基于PRM针对约1000万个问题生成多个变体，并在不同点分支，产生数千条不同的答案“轨迹”。这些轨迹通过功能验证器和优化奖励模型进行修剪。PRM效率较低，大多数数据选择通过ORM实现。

推理训练的计算密集型特性导致后训练FLOPS超过预训练。OpenAI的下一代模型在预训练规模上介于GPT-4o和Orion之间，从基础模型派生出聊天模型和推理模型，后训练FLOPs超过预训练所需计算量。

快速迭代成为模型发展的另一种Scaling形式，算法进步减少了物理计算量需求，训练运行时间缩短。Orion模型的训练时间超过3个月，显示出推理模型的“反馈循环”机制对训练时间的影响。

推理模型的计算密度增加和内存需求更高，导致批大小减少和每GPU吞吐量降低。内存需求增加的主要驱动因素是处理更长序列长度所需的更大KV缓存。FLOP需求随序列长度线性增长，但总FLOP随序列长度平方增长，导致批大小显著缩小，难以分摊成本，使每个token的服务成本显著提高。

推理模型面临的挑战包括可靠性问题，如静默数据损坏错误和其他故障。这些错误可能导致语法、语境或格式上的错误，尤其是在长上下文模型中，错误的累积更为明显。

o1 pro采用自洽性/多数投票机制破解推理难题，与o1模型使用相同的模型和权重。尽管成本较高，但自洽性/多数投票在大部分序列长度上使用了共享的前缀，因此无需在KV缓存上花费额外的带宽或内存。

摩尔定律在计算领域的重要性被重申，AI领域的Scaling Law也将随着新技术范式的出现和扩展而持续扩展。推理模型与思维链的研究成为重点，通过强化学习对齐模型行为，提高准确性。推理时Scaling成为关注焦点，测试时计算越多，答案越好，而利用这一scaling维度的努力正处于重要转折点。