![直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型](https://www.xuexiaigc.com/wp-content/uploads/article-images/8b75aff41fbea22412.jpeg)
文章摘要
【关 键 词】 开源模型、推理优化、数据验证、模型训练、性能评估
斯坦福大学、加州大学伯克利分校等机构联合发布了开源推理模型OpenThinker-32B,其性能接近当前最先进的DeepSeek-R1-32B模型。该模型仅使用114k训练数据(相当于DeepSeek-R1使用量的1/8),在数学、代码和科学领域基准测试中表现优异,直接超越了李飞飞团队研发的s1和s1.1模型。研究团队同步开源了包含模型权重、114k训练数据集及完整训练代码的资源,为AI社区提供了可复现的解决方案。
数据构建过程采用多阶段验证机制,原始数据通过DeepSeek-R1模型生成17.3万个问题的推理过程,形成OpenThoughts-Unverified-173k数据集。通过代码执行验证和LLM评判器双重机制,最终筛选出114k高质量数据。针对代码类问题,团队开发了自动化执行框架进行单元测试验证;数学问题则采用大语言模型对比标准答案与生成答案的验证方式,这种方法相比传统数学解析引擎提升了20%的有效数据率。
模型训练基于Qwen2.5-32B-Instruct架构,使用LLaMa-Factory框架进行三轮微调。在AWS SageMaker集群上消耗2880个H100 GPU小时完成训练,16k上下文长度设置有效支持复杂推理任务。验证版与未验证版模型分别采用不同硬件配置,其中未验证版本在Leonardo超算上使用11520个A100 GPU小时完成训练。
评估环节采用开源框架Evalchemy进行多维度测试,在AIME24/25等数学竞赛数据集上通过五次运行取平均值的严格验证方式。结果显示,OpenThinker-32B与DeepSeek-R1-Distill-Qwen-32B的性能差距已基本消除,特别是在代码执行准确率和数学问题解决能力方面展现出显著优势。研究团队特别指出,保留未通过验证的推理数据虽会轻微影响性能,但能有效扩展训练数据的多样性。
该项目的突破性在于验证了数据质量、模型规模与验证机制的三重协同效应。通过精心设计的数据筛选流程,仅用14.25%的数据量即达到行业领先水平。开源的数据集特别增加了元数据层,支持单行代码实现数据过滤、领域切换和模板修改,为后续强化学习研究提供了便利。这项成果不仅推进了开源推理模型的发展,更为社区探索数据效率与模型性能的平衡关系提供了重要参考范式。
原文和模型
【原文链接】 阅读原文 [ 1619字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆