文章摘要
【关 键 词】 AI模型、Qwen2.5-Max、Chatbot Arena、数学代码、国际竞争
阿里巴巴推出的Qwen2.5-Max模型在大模型竞技场榜单上取得了显著成绩,以总分1332位列第七,并在编程和数学领域表现突出,与顶级模型并列第一。Chatbot Arena作为全球顶级大模型的权威测试平台,集成了190多种模型,通过用户盲测对话体验对模型能力进行投票。Qwen2.5-Max在新开的WebDev榜单上也冲进了前十,显示出中国AI正在快速缩小与国际的差距。网友实际使用后认为Qwen的表现更加稳定,甚至有人认为它将取代硅谷的普通模型。
在单项能力方面,Qwen2.5-Max在数学和代码任务中与顶级模型并列第一,成为唯一一个非推理模型在数学榜单上并列第一的模型。在复杂提示词任务中,Qwen2.5-Max与o1-preview并列第二,英文限定条件下可排到第一。多轮对话能力与DeepSeek-R1并列第一,长文本处理能力排行第三。技术报告显示,Qwen2.5-Max在多个基准测试中与GPT-4o和Claude 3.5-Sonnet处于近似或更高水平,在开源基座模型对比中全面超过DeepSeek-V3,领先于Llama 3.1-405B。
Qwen2.5-Max上线后,网友实测发现其在代码和推理方面表现出色。例如,它能够用JavaScript编写象棋游戏,并具备Artifacts功能,使得开发的游戏可以立即试玩。在复杂提示词的推理问题上,Qwen2.5-Max能够快速准确地完成推理,将过程清晰分为五步,并迅速得出结论。与非推理模型DeepSeek-V3相比,Qwen2.5-Max的回答更简洁迅速。此外,Qwen2.5-Max还能生成ASCII数字组成的旋转球体,以及数单词中特定字母的数量。
Qwen2.5-Max已在Qwen Chat平台上线,供用户免费体验,企业用户也可以在阿里云百炼调用其API。
原文和模型
【原文链接】 阅读原文 [ 1054字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆