梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑

AI-Agent2小时前发布 ai-front
72 0 0
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑

 

文章摘要


【关 键 词】 DeepSeek-R1国产AI同行评审强化学习模型推理

9月17日,开源AI“顶流”DeepSeek的推理模型研究论文DeepSeek – R1以通讯作者梁文锋的名义发表于国际顶尖期刊《自然》并登上封面,标志国产AI研究迈入世界舞台,填补大语言模型完整同行评审空白。

DeepSeek – R1核心突破在于借助强化学习机制使模型自主形成推理能力。团队先基于DeepSeek – V3 Base构建R1 – Zero,引导其生成更具逻辑性回答,再引入多阶段训练打造出性能强且符合人类偏好的DeepSeek – R1。该模型在全球开源社区受欢迎,在Hugging Face平台下载量突破1090万次。

新版论文补充训练细节并回应质疑:数据来自互联网,未有意蒸馏;进行大规模去污染,剔除约600万条潜在污染样本;引入外部风险控制机制,安全性表现优;训练成本仅29.4万美元,远低于竞争对手。

R1是首个经过同行评审的大语言模型重要项目。DeepSeek团队2月提交论文,经5个月审查、8位外部专家评审,形成64页审稿文件。评审意见涉及细节修改和关键学术问题,DeepSeek逐一回应并新增章节与补充材料。

《同行评审报告》指出,以往大语言模型推理依赖提示工程或含推理示例的训练数据,而本论文证明仅靠强化学习就能让模型推理,无需提示工程和人工数据。该研究在语言模型后训练方法上有奠基意义,DeepSeek R1多项评测领先,但训练数据组成缺乏透明度,部分决策缺乏实证支持。

DeepSeek主要创新是用纯强化学习创建R1,奖励模型得出正确答案,使用组相对策略优化提高效率。虽有媒体称其用OpenAI输出数据训练R1,但研究人员反驳,且其他实验室尝试表明其推理方法无需重复训练。在ScienceAgentBench挑战赛中,R1平衡性能和成本表现佳,还引发其他研究人员运用其方法提升大语言模型推理能力,“引发了一场革命”。

原文和模型


【原文链接】 阅读原文 [ 2159字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...