杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

1,378 0 0

文章摘要

【关键词】 AI模型、Qwen2.5-Max、Chatbot Arena、数学代码、国际竞争

阿里巴巴推出的Qwen2.5-Max模型在大模型竞技场榜单上取得了显著成绩，以总分1332位列第七，并在编程和数学领域表现突出，与顶级模型并列第一。Chatbot Arena作为全球顶级大模型的权威测试平台，集成了190多种模型，通过用户盲测对话体验对模型能力进行投票。Qwen2.5-Max在新开的WebDev榜单上也冲进了前十，显示出中国AI正在快速缩小与国际的差距。网友实际使用后认为Qwen的表现更加稳定，甚至有人认为它将取代硅谷的普通模型。

在单项能力方面，Qwen2.5-Max在数学和代码任务中与顶级模型并列第一，成为唯一一个非推理模型在数学榜单上并列第一的模型。在复杂提示词任务中，Qwen2.5-Max与o1-preview并列第二，英文限定条件下可排到第一。多轮对话能力与DeepSeek-R1并列第一，长文本处理能力排行第三。技术报告显示，Qwen2.5-Max在多个基准测试中与GPT-4o和Claude 3.5-Sonnet处于近似或更高水平，在开源基座模型对比中全面超过DeepSeek-V3，领先于Llama 3.1-405B。

Qwen2.5-Max上线后，网友实测发现其在代码和推理方面表现出色。例如，它能够用JavaScript编写象棋游戏，并具备Artifacts功能，使得开发的游戏可以立即试玩。在复杂提示词的推理问题上，Qwen2.5-Max能够快速准确地完成推理，将过程清晰分为五步，并迅速得出结论。与非推理模型DeepSeek-V3相比，Qwen2.5-Max的回答更简洁迅速。此外，Qwen2.5-Max还能生成ASCII数字组成的旋转球体，以及数单词中特定字母的数量。

Qwen2.5-Max已在Qwen Chat平台上线，供用户免费体验，企业用户也可以在阿里云百炼调用其API。