李飞飞团队50美元训练出DeepSeek R1?

AIGC动态7小时前发布 damoxingLab
58 0 0
李飞飞团队50美元训练出DeepSeek R1?

 

文章摘要


【关 键 词】 模型优化测试缩放数据集构建性能提升信息传播

近期,一则关于“50美元蒸馏出DeepSeek R1模型”的新闻引发了广泛关注,甚至被认为对OpenAI和英伟达造成了巨大冲击。然而,深入研究相关论文后发现,这种说法存在严重误解。实际研究的重点并非复制DeepSeek R1,而是基于开源的Qwen2.5-32B模型,通过特定任务的监督微调优化性能,并在部分任务上表现出与DeepSeek R1和OpenAI o1相当的效果。

研究的核心在于探索测试时缩放(Test – Time Scaling)这一新范式,尝试以较低成本实现高性能推理能力。研究人员构建了一个名为s1K的数据集,其中包含经过严格筛选的1,000个样本,覆盖质量、难度和多样性要求,以此为基础进行实验。实验采用顺序和并行两类测试时缩放方法,特别提出“预算强制”策略,通过对思考令牌数量的控制,引导模型生成更优答案。对比其他方法,预算强制在性能提升、资源利用率等方面表现最佳。

实验结果表明,使用Qwen2.5-32B模型经过s1K数据集微调后得到的s1-32B模型,在AIME24等推理基准上的表现超过了o1-preview,并在一定程度上接近Gemini 2.0的性能水平。然而,该模型仍属于参数规模较小的中等模型,无法与数千亿参数级别的DeepSeek R1或o1模型直接比较。此外,消融实验进一步验证了数据质量和测试时缩放方法的重要性,证明s1K数据集构建方法的有效性。

针对研究的意义,讨论部分指出其核心贡献在于利用少量高质量数据和简单的监督微调技术,在测试时提升模型推理性能,展示了样本高效推理的可能性。同时,也提出了未来改进方向,例如优化预算强制策略或结合强化学习探索新的测试时缩放方式。

此事件反映了当前信息传播中的浮躁现象,未经核实的内容被迅速扩散,导致公众误解。正确解读研究内容有助于避免误导,同时也提醒人们在面对类似消息时保持理性思考,关注科学研究的实际意义而非片面夸张的表述。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1395字 | 6分钟 ]
【原文作者】 AI大模型实验室
【摘要模型】 qwen-max-2025-01-25
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...