Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方

AIGC动态10小时前发布 Si-Planet
84 0 0
Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方

 

文章摘要


【关 键 词】 模型开源性能训练创新

阿里巴巴于4月29日凌晨发布了新一代通义千问Qwen3系列模型,涵盖8款不同尺寸,其中旗舰模型Qwen3 235B采用混合专家(MoE)架构,总参数量为235B,激活参数仅需22B,预训练数据量达36万亿Tokens。Qwen3在多项测评中表现优异,超越DeepSeek-R1、OpenAI-o1等主流模型,成为当前性能领先的开源大语言模型。在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3;在ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

Qwen3的预训练阶段性能优化主要依赖于大量高质的合成数据。Qwen3的数据集相比Qwen2.5有了显著扩展,达到了约36万亿个token,涵盖了119种语言和方言。技术报告中提到,Qwen3借助Qwen2.5系列模型从PDF文档中提取文本,并利用Qwen2.5-Math和Qwen2.5-Coder合成数学和代码数据,构建了一个自我迭代提升的数据系统。后训练阶段是Qwen3最为关键的技术创新,通过多阶段训练方法实现了推理能力与直接回答能力的融合。Qwen3采用了“回锅肉”式迭代:微调、RL、再微调,然后再更具体的RL。与DeepSeek R1等模型不同,Qwen3在第二阶段RL中采用基于规则的奖励来增强模型的探索和钻研能力,而非完全依赖GRPO(基于结果奖励的优化)。

Qwen3发布了8款不同的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型SOTA(最佳性能)。Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能;32B版本的Qwen3模型可跨级超越Qwen2.5-72B性能。Qwen3的发布不仅满足了开源社区的期待,还展示了模型在端侧运行的能力和水平。

Qwen3的成功不仅在于其性能的突破,更在于其技术路线的创新。Qwen3没有完全依赖R1的方法,但完成了对R1的超越,展示了以小博大的能力。Qwen3的发布为开源社区提供了新的技术配方,预计其更全面的技术报告发布后,将进一步推动开源模型的进步和创新。

原文和模型


【原文链接】 阅读原文 [ 1464字 | 6分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...