Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

AIGC动态2个月前发布 QbitAI
522 0 0
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

 

文章摘要


【关 键 词】 AI模型数学推理强化学习开源项目算法优化

上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。自2024年6月o1发布前,团队便开始探索提升大模型数学能力的方法。最新开源代码在开发者社区引起热议。

OpenAI o1系列发布后,团队升级算法,专注于数学奥赛问题。10月初,团队上传新论文,通过成对优化提高Llama模型的数学奥赛能力。在AIME2024基准测试中,优化后的模型表现超过其他商业闭源方案。

10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得重大进展,使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。项目已开源预训练数据集、预训练模型和强化学习训练代码。OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含一个完整的数学问题推理过程。

在预训练模型基础上,可以继续进行强化学习训练。训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验、将经验存储在优先经验回放缓冲区中、从缓冲区采样批次数据进行训练、更新模型参数和经验优先级。训练代码中使用了LoRA参数高效微调、PPO策略优化方法、GAE算法计算优势函数、优先经验回放提高训练效率等关键技术点。

LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下,性质是一个研究实验室,未透露更多研究方向信息。除LLaMA-O1外,另一个o1复刻项目O1-Journey来自上交大团队,介绍了创新Journey Learning范式,以及第一个成功将搜索和学习整合到数学推理中的模型。O1-Journey核心开发团队主要由上交大本科生和GAIR实验室博士生组成,指导教师包括上交大副教授刘鹏飞、姚班校友李远志等。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 972字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...