阿里最新开源模型Qwen3到底能不能打？不妨上「通义App」亲自试试

1,366 0 0

文章摘要

阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源，并迅速登顶多项大模型测评榜单，引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均表现出显著提升，尤其是旗舰模型 Qwen3-235B-A22B，在多个国际权威基准测试中刷新了开源模型的纪录。为了验证其实际表现，AI 前线对 Qwen3 进行了多角度的实测体验，测试内容涵盖代码、数学、逻辑推理等专业场景，以及文本创作和旅行规划等大众场景。

在代码生成测试中，Qwen3 展现了出色的推理能力。测试要求模型用 Python 编写一个函数，输入是一个整数列表，返回列表中所有偶数的平方和，并处理空列表、负数、零和极大值等特殊情况。Qwen3 在44秒内完成了任务，生成的代码逻辑严密，时间复杂度最优。相比之下，DeepSeek R1 耗时80秒，且 Qwen3 的代码细节更优。此外，Qwen3 在推理过程中使用了有趣的 Emoji 图标，提升了用户体验。

在数学推理与常识逻辑测试中，Qwen3 同样表现出色。测试题目涉及电商平台的满减优惠和会员折扣，要求模型计算非会员和会员用户的最优购买组合。Qwen3 在36秒内给出了正确答案，逻辑完备且推理过程清晰。而 DeepSeek R1 虽然也给出了正确答案，但耗时4分钟，且中间出现了反复推理自证的情况。

在多角度论证能力测试中，Qwen3 展现了强大的逻辑性和结构性。测试要求模型从经济学、伦理学、技术发展史三个角度分析人工智能是否会导致大规模失业，并给出综合结论。Qwen3 在18秒内完成了任务，论证层次分明，论据多样，结论逻辑严谨。尽管 DeepSeek R1 以14秒的速度更快地给出了答案，但 Qwen3 的答案在详细程度和条理性上更胜一筹。

Qwen3 在代码生成、数学推理和多角度论证等测试中均表现出色，推理速度快且结果准确，尤其在处理复杂逻辑和多条件约束问题时展现了强大的能力。通过与 DeepSeek R1 的对比，Qwen3 在多个测试场景中表现更为优异，进一步验证了其在大模型领域的领先地位。