
文章摘要
中国大模型领域在3月6日同时发生了两个引发广泛关注的AI事件:AI Agent产品Manus和阿里巴巴开源的通义千问QwQ-32B模型。虽然Manus被部分人称为“炸裂”成果,但国际AI社区更关注的是QwQ-32B模型。该模型以32B的参数规模,实现了与目前最强开源模型DeepSeek-R1相匹敌的性能,并在发布当天登顶HuggingFace的开源模型榜单。这一表现不仅击败了OpenAI o1 mini,还吸引了大量开发者的关注,尤其是其在小规模硬件上的高效部署能力。
QwQ-32B在多个权威基准测试中表现优异,尤其在数学和代码能力方面,超越了OpenAI o1 mini,并与DeepSeek-R1相当。例如,在AIME24数学评测集和LiveCodeBench代码能力测试中,QwQ-32B的表现与DeepSeek-R1持平,远胜于o1 mini。此外,在Meta首席科学家杨立昆领衔的LiveBench、谷歌的IFEval指令遵循能力测试以及加州大学伯克利分校的BFCL函数调用测试中,QwQ-32B的得分均超越了DeepSeek-R1。这些成绩展示了该模型在多种任务中的强大推理能力。
QwQ-32B的另一个亮点是其在小规模硬件上的高效运行能力。开发者实测证实,该模型可以在MacBook M系列芯片设备上流畅运行,其量化版本甚至在仅有16GB内存的设备上实现了每秒40 token的推理速度。这一表现大幅降低了硬件门槛,使得中小企业也能负担得起高性能AI模型的部署。此外,QwQ-32B的显存需求从DeepSeek-R1的1500GB降至24GB VRAM,验证了中等规模模型突破性能瓶颈的可能性。
QwQ-32B的成功得益于阿里通义团队在强化学习路径上的持续优化。团队针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,使得32B的模型尺寸在推理能力上获得了显著提升。Reddit用户通过物理原理推导任务进一步验证了QwQ-32B的推理能力,展示了其在复杂任务中的出色表现。此外,Anthropic的投资机构Menlo Venture对比了QwQ-32B和DeepSeek-R1的推理成本,发现前者的token成本仅为后者的1/10,但性能却达到了DeepSeek-R1与o3-mini之间的水平。
阿里巴巴采用宽松的Apache2.0协议,将QwQ-32B模型向全球开源,所有人都可免费下载及商用。这一举措降低了企业部署顶级AI模型的成本,避免了复杂的GPU集群和高带宽网络需求,使得中小企业也能轻松部署高性能AI模型。同时,用户可通过通义APP免费体验最新的QwQ-32B模型,进一步推动了该模型的普及。
围绕Qwen的开源生态正在逐渐成型,QwQ-32B模型成为硅谷最爱的开源基座之一。Qwen团队积极推动主流开源工具对QwQ-32B的快速适配,并鼓励开发者进行二次开发。Groq在QwQ-32B发布的第一时间即完成GroqCloud部署,实现400 token/s的推理速度,并以超低价格提供服务。Groq的LPU架构与QwQ-32B的密集模型设计形成互补,进一步提升了模型的部署效率。
Qwen系列模型在全球开源社区中取得了显著成就,衍生模型数量已突破10万,超越Llama系列。根据Huggingface的最新榜单,排名前十的开源大模型全部基于Qwen开源模型二次开发。学术界知名研究机构和学者也基于Qwen系列模型展开研究,例如斯坦福大学和华盛顿大学的研究人员使用Qwen2.5-32B-Instruct模型,仅用16块H100 GPU和26分钟的监督微调,便打造出了性能卓越的s1-32B模型。
阿里巴巴自2023年以来已开源200多款模型,涵盖文本生成、视觉生成、语音理解等多个领域。这些模型覆盖了从0.5B到110B的全尺寸参数,并在多个榜单中斩获冠军。QwQ-32B是阿里巴巴近期开源的重要模型之一,但其可能还不是Qwen系列中最强的模型,预示着通义团队未来可能还有更多创新成果发布。
原文和模型
【原文链接】 阅读原文 [ 2196字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★