DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力

AIGC动态12小时前发布 Si-Planet
52 0 0
DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力

 

文章摘要


【关 键 词】 技术突破强化学习模型性能开源模型人工智能

DeepSeek R1系列模型的发布标志着一项技术突破,该系列包括三个模型:DeepSeek-R1-Zero、DeepSeek-R1和小型密集模型。DeepSeek-R1-Zero通过仅使用强化学习(RL)而无需任何SFT数据,展示了RL在优化模型性能方面的有效性。DeepSeek-R1在AIME2024上取得了79.8%的成绩,略高于OpenAI-o1-1217,并在MATH-500上获得了97.3%的成绩,与OpenAI-o1-1217相当,优于其他模型。在编码任务中,DeepSeek-R1展现出专家水平,获得了2029 Elo评级,并在竞赛中优于96.3%的人类参与者。

DeepSeek R1系列的技术路线中,R1 Zero的训练方法尤为引人注目,它完全放弃了SFT,转而完全依赖RL。这种训练方法的效果良好,DeepSeek-R1-Zero在AIME 2024上的平均pass@1得分从15.6%跃升至71.0%,达到与OpenAl-o1-0912相当的性能水平。R1 Zero在自我进化过程中出现了“aha moment”,即模型在测试阶段计算能力提升时,复杂行为会自发涌现,如反思和探索解决问题的替代方法,这些行为是模型与强化学习环境交互的自然产物,增强了其推理能力。

DeepSeek R1系列的发布还包括了模型权重的开源,允许用户通过蒸馏技术借助R1训练其他模型。DeepSeek在R1基础上,使用Qwen和Llama蒸馏了几个不同大小的模型,以适应市场上对模型尺寸的需求。这种蒸馏过程节省了计算资源,并且可以复用已有的高质量参数初始化。

DeepSeek的技术路线和风格显示出与OpenAI的正面交锋,特别是在对齐和泛化能力方面。DeepSeek R1 zero证明了其能力,并通过蒸馏技术开源,使得社区能够一起突破。与OpenAI相比,DeepSeek显示出更多的活力和开放性,其开源策略和对强化学习的依赖为人工智能的发展提供了新的方向。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2549字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...