碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

2,651 0 0

文章摘要

阿里巴巴今天凌晨开源了Qwen3系列的新版本Qwen3-235B-A22B-2507，这一版本在多个方面进行了显著优化。与之前的混合思考模型不同，新版Qwen3回归了指令微调模型，尽管取消了思维推理机制，但其性能依然非常强劲。根据阿里公布的数据，新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试等六大类几十种测试基准中，全部大幅度超过了DeepSeek开源的新版V3-0324模型。例如，在SimpleQA测试中，DeepSeekV3得分为27.2，而新版Qwen3达到了54.3分；在ZebraLogic测试中，DeepSeekV3得分为83.4，而新版Qwen3则高达95分。这些数据表明，Qwen3在多个领域的表现均优于竞争对手。

新版Qwen3不仅在基准测试中表现优异，还在多项具体任务中展现了强大的能力。例如，在知识类的MMLU-Pro测试中，Qwen3得分为83.0，在MMLU-Redux中得分为93.1，在GPQA中得分为77.5。在推理能力方面，它在AIME25测试中得分为70.3，在HMMT25中得分为55.4。在编程能力方面，Qwen3在LiveCodeBenchv6测试中得分为51.8，在MultiPL-E中得分为87.9。在对齐能力方面，它在IFEval测试中得分为88.7，在Arena-Hardv2测试中得分为79.2。此外，Qwen3在多语言能力方面也有出色的表现，例如在MultiIF测试中得分为77.5，在MMLU-ProX测试中得分为79.4。

Qwen3的另一个亮点是其工具调用能力。建议使用Qwen-Agent来充分发挥其智能体能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器，大大降低了编码复杂性。用户可以通过MCP配置文件、Qwen-Agent的集成工具或自行集成其他工具来定义可用工具。这一设计使得Qwen3在处理复杂任务时更加灵活和高效。

新版Qwen3的总参数数量为2350亿，其中220亿个是激活的。非嵌入参数数量为2340亿，共有94层，采用64个查询头和4个键值头的分组查询注意力机制。它有128个专家，其中8个是激活的。其上下文长度原生支持262144，这使得Qwen3在处理长文本任务时具有显著优势。此外，Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力方面进行了大量优化，并且在多种语言的长尾知识覆盖方面取得了显著进步。

Qwen3的发布引起了广泛关注和积极评价。许多网友表示，Qwen3在严格遵循提示词方面表现出色，甚至超过了其他中型大语言模型。有网友评论道：“我评估过的所有中型大语言模型，在严格遵循提示词这方面，没有一个能接近Qwen。”此外，Qwen3在多个基准测试中击败了月之暗面最新开源的kimi-k2，进一步证明了其强大的性能。

总体而言，新版Qwen3-235B-A22B-Instruct-2507在多个方面展现了卓越的性能和创新能力。其指令模型与思维模型分开训练的模式，有望进一步提升模型性能与多功能性。随着Qwen3的不断发展和优化，未来其在AIGC领域的应用前景将更加广阔。