碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

AI-Agent10小时前发布 AIGCOPEN
314 0 0
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

 

文章摘要


【关 键 词】 开源模型性能基准优化

阿里巴巴今天凌晨开源了Qwen3系列的新版本Qwen3-235B-A22B-2507,这一版本在多个方面进行了显著优化。与之前的混合思考模型不同,新版Qwen3回归了指令微调模型,尽管取消了思维推理机制,但其性能依然非常强劲。根据阿里公布的数据,新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试等六大类几十种测试基准中,全部大幅度超过了DeepSeek开源的新版V3-0324模型。例如,在SimpleQA测试中,DeepSeekV3得分为27.2,而新版Qwen3达到了54.3分;在ZebraLogic测试中,DeepSeekV3得分为83.4,而新版Qwen3则高达95分。这些数据表明,Qwen3在多个领域的表现均优于竞争对手。

新版Qwen3不仅在基准测试中表现优异,还在多项具体任务中展现了强大的能力。例如,在知识类的MMLU-Pro测试中,Qwen3得分为83.0,在MMLU-Redux中得分为93.1,在GPQA中得分为77.5。在推理能力方面,它在AIME25测试中得分为70.3,在HMMT25中得分为55.4。在编程能力方面,Qwen3在LiveCodeBenchv6测试中得分为51.8,在MultiPL-E中得分为87.9。在对齐能力方面,它在IFEval测试中得分为88.7,在Arena-Hardv2测试中得分为79.2。此外,Qwen3在多语言能力方面也有出色的表现,例如在MultiIF测试中得分为77.5,在MMLU-ProX测试中得分为79.4。

Qwen3的另一个亮点是其工具调用能力。建议使用Qwen-Agent来充分发挥其智能体能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。用户可以通过MCP配置文件、Qwen-Agent的集成工具或自行集成其他工具来定义可用工具。这一设计使得Qwen3在处理复杂任务时更加灵活和高效。

新版Qwen3的总参数数量为2350亿,其中220亿个是激活的。非嵌入参数数量为2340亿,共有94层,采用64个查询头和4个键值头的分组查询注意力机制。它有128个专家,其中8个是激活的。其上下文长度原生支持262144,这使得Qwen3在处理长文本任务时具有显著优势。此外,Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力方面进行了大量优化,并且在多种语言的长尾知识覆盖方面取得了显著进步。

Qwen3的发布引起了广泛关注和积极评价。许多网友表示,Qwen3在严格遵循提示词方面表现出色,甚至超过了其他中型大语言模型。有网友评论道:“我评估过的所有中型大语言模型,在严格遵循提示词这方面,没有一个能接近Qwen。”此外,Qwen3在多个基准测试中击败了月之暗面最新开源的kimi-k2,进一步证明了其强大的性能。

总体而言,新版Qwen3-235B-A22B-Instruct-2507在多个方面展现了卓越的性能和创新能力。其指令模型与思维模型分开训练的模式,有望进一步提升模型性能与多功能性。随着Qwen3的不断发展和优化,未来其在AIGC领域的应用前景将更加广阔。

原文和模型


【原文链接】 阅读原文 [ 959字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...