Kimi官方复盘：k1.5复现o1的思考过程

1,235 0 0

文章摘要

【关键词】 多模态思考、Long CoT、RL训练、In Context RL、AGI展望

Kimi的多模态思考模型k1.5发布后，技术人员在知乎上分享了复现o1的关键思考过程。他们首先认识到Long CoT的有效性，并反思了Long Context的重要性。尽管Long CoT成本高、速度慢，但为了提升性能，他们决定投入研究。通过观察o1官网的例子，他们发现o1可以犯错、反复反思并尝试不同的思考方法。两个重要的openai视频进一步启发了他们，特别是Noam Brown强调Test-Time Search的重要性，而Hyung Won Chung的视频则强调了不限制模型思考的重要性。

他们得出结论，Agentic Workflow只有短期价值，最终会被模型本身的能力取代。他们的目标是训练模型像人类一样自由思考。Noam Brown的另一张PPT强调了进行有精确Reward的RL的重要性，而不是被Reward Model限制。他们认为，通过RL训练LLM通过Long CoT做题是关键，而不是采取结构化的方法。

o1实际上是In Context RL with Self-Critique，将完整的trajectory作为一条message进行训练。他们发现，模型会随着训练提升performance而增加token数，这是RL训练过程中模型可以自己涌现的。他们将问题转化为Contextual Bandit问题，并使用REINFORCE的变种进行训练。

最后，他们认为AGI确实近在眼前，而ASI则是RL在更复杂场景的应用。他们期待AI在各种领域的进展，并对未来充满期待。