Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

2,005 0 0

文章摘要

上海AI Lab团队发布了LLaMA版o1项目，旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。自2024年6月o1发布前，团队便开始探索提升大模型数学能力的方法。最新开源代码在开发者社区引起热议。

OpenAI o1系列发布后，团队升级算法，专注于数学奥赛问题。10月初，团队上传新论文，通过成对优化提高Llama模型的数学奥赛能力。在AIME2024基准测试中，优化后的模型表现超过其他商业闭源方案。

10月底，团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得重大进展，使模型在学习过程中通过与搜索树交互获得高级思维能力，无需人工标注。项目已开源预训练数据集、预训练模型和强化学习训练代码。OpenLongCoT-Pretrain数据集包含10万+条长思维链数据，每条数据包含一个完整的数学问题推理过程。

在预训练模型基础上，可以继续进行强化学习训练。训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验、将经验存储在优先经验回放缓冲区中、从缓冲区采样批次数据进行训练、更新模型参数和经验优先级。训练代码中使用了LoRA参数高效微调、PPO策略优化方法、GAE算法计算优势函数、优先经验回放提高训练效率等关键技术点。

LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，性质是一个研究实验室，未透露更多研究方向信息。除LLaMA-O1外，另一个o1复刻项目O1-Journey来自上交大团队，介绍了创新Journey Learning范式，以及第一个成功将搜索和学习整合到数学推理中的模型。O1-Journey核心开发团队主要由上交大本科生和GAIR实验室博士生组成，指导教师包括上交大副教授刘鹏飞、姚班校友李远志等。