文章摘要
【关 键 词】 大模型、推理训练、强化学习、计算密度、摩尔定律
硅谷巨头们在大模型Scaling Law的争议中采取了不同策略。谷歌推出了新一代模型Gemini 2.0 Flash,而OpenAI展示了其“满血版”o1和o1 pro mode,证明模型能力未达极限。Anthropic的Claude 3.5 Opus被用作内部数据合成和强化学习奖励建模的“战略武器”,提升了模型性能而未增加推理成本。
o1模型在推理阶段采用思维链(Chain of Thought,CoT)方法,将推理分解为多个步骤,能够规划推理步骤、评估中间结果,并在出错时回溯。o1 pro则采用自洽性或多数投票的方法。o1生成单一思维链的过程可能涉及强化学习中的“过程奖励模型”(Process Reward Model,PRM),类似于奖励机制,可在验证和生成间切换。
OpenAI为训练o1构建了“草莓训练”系统,通过蒙特卡洛树生成合成数据,模型基于PRM针对约1000万个问题生成多个变体,并在不同点分支,产生数千条不同的答案“轨迹”。这些轨迹通过功能验证器和优化奖励模型进行修剪。PRM效率较低,大多数数据选择通过ORM实现。
推理训练的计算密集型特性导致后训练FLOPS超过预训练。OpenAI的下一代模型在预训练规模上介于GPT-4o和Orion之间,从基础模型派生出聊天模型和推理模型,后训练FLOPs超过预训练所需计算量。
快速迭代成为模型发展的另一种Scaling形式,算法进步减少了物理计算量需求,训练运行时间缩短。Orion模型的训练时间超过3个月,显示出推理模型的“反馈循环”机制对训练时间的影响。
推理模型的计算密度增加和内存需求更高,导致批大小减少和每GPU吞吐量降低。内存需求增加的主要驱动因素是处理更长序列长度所需的更大KV缓存。FLOP需求随序列长度线性增长,但总FLOP随序列长度平方增长,导致批大小显著缩小,难以分摊成本,使每个token的服务成本显著提高。
推理模型面临的挑战包括可靠性问题,如静默数据损坏错误和其他故障。这些错误可能导致语法、语境或格式上的错误,尤其是在长上下文模型中,错误的累积更为明显。
o1 pro采用自洽性/多数投票机制破解推理难题,与o1模型使用相同的模型和权重。尽管成本较高,但自洽性/多数投票在大部分序列长度上使用了共享的前缀,因此无需在KV缓存上花费额外的带宽或内存。
摩尔定律在计算领域的重要性被重申,AI领域的Scaling Law也将随着新技术范式的出现和扩展而持续扩展。推理模型与思维链的研究成为重点,通过强化学习对齐模型行为,提高准确性。推理时Scaling成为关注焦点,测试时计算越多,答案越好,而利用这一scaling维度的努力正处于重要转折点。
原文和模型
【原文链接】 阅读原文 [ 7893字 | 32分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★