
文章摘要
阿里巴巴开源的新一代通义千问模型Qwen3在数据分析与智能决策场景中展现了显著的性能提升。数势科技的SwiftAgent率先完成对Qwen3的全面适配,并发布了与DeepSeek-R1的测评报告。测评主要针对Qwen3-32B和Qwen3-235B-A22B,对比了Qwen2.5-72B和DeepSeek-R1的效果。测评涵盖了上下文改写、任务编排、工具调用、数据查询、图表生成和总结反思等关键节点。
在上下文改写方面,Qwen3-32B表现出色,能够准确判断语境并进行改写,而其他模型在某些情况下无法正确处理。例如,在Case1中,Qwen3-32B是唯一准确判断不应改写的模型;在Case2中,Qwen2.5-72B基于上轮时间进行推理,导致错误改写,而其他模型则理解语境并正确判断;在Case3中,所有模型均未能正确理解术语“INV”并改写Query。
在任务编排和工具调用方面,Qwen3-32B和Qwen3-235B-A22B在任务拆解和工具选择上表现优异,而Qwen2.5-72B则落后于其他模型。例如,在Case2中,Qwen3-32B和Qwen3-235B-A22B成功拆解子任务,而Qwen2.5-72B未能完成;在Case3中,Qwen2.5-72B未能识别应调用归因分析工具,而其他模型均能正确识别。
在数据查询方面,Qwen3-32B和Qwen3-235B-A22B在时间要素识别和实体抽取上表现优异,接近DeepSeek-R1的水平。例如,在时间难例Case中,Qwen3-32B和Qwen3-235B-A22B在时间要素识别上领先于Qwen2.5-72B;在实体抽取方面,Qwen3-32B在Case1和Case2中表现优于其他模型,尽管DeepSeek-R1在Case3中漏识别了维度。
在图表生成方面,Qwen3-32B在数据理解和代码生成上优于Qwen2.5-72B,但在渲染排版上略逊于Qwen3-235B-A22B和DeepSeek-R1。例如,在Case2和Case3中,Qwen2.5-72B出现了数据遗漏现象,而Qwen3-32B则表现良好。
在总结反思方面,Qwen3的两个模型在代码优化上表现最佳,优先尝试转换为数值,无法强制转换才选择抛弃,但均未解决潜在的空列表错误。在二次提示优化后,所有模型均给出优化方案,达到预期。
在数学推理计算能力方面,DeepSeek-R1和Qwen3-235B-A22B表现优异,符合Scale Law的认知。例如,在Case1中,DeepSeek-R1和Qwen3-235B-A22B均回答正确,而其他模型回答错误;在Case2和Case3中,所有模型均回答准确。
综上所述,Qwen3模型在数据分析Agent构建方面展现了显著的提升,尤其在任务规划、代码生成、数学计算和语义识别等方面表现优异。Qwen3-32B模型远优于上一代模型,甚至接近DeepSeek-R1模型,且部署成本更低,为企业使用大模型提供了重大利好。数势科技SwiftAgent的全面适配和功能升级,为企业客户构建AI驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。
原文和模型
【原文链接】 阅读原文 [ 1990字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆