
文章摘要
【关 键 词】 阿里开源、模型架构、Qwen3-Next、低耗高效、长文推理
今天凌晨2点,阿里巴巴开源新架构模型Qwen3-Next-80B-A3B,引发广泛关注。Qwen3-Next是混合专家模型,总参数800亿,仅激活30亿,训练成本较Qwen3 – 32B暴降90%,推理效率提升10倍,尤其在超长文本32K以上提示场景表现出色。其指令微调模型在推理与长上下文任务中可媲美阿里旗舰模型Qwen3 – 235B,思考模型超过谷歌最新的Gemini – 2.5 – Flash思考模型,成为目前最强低能耗开源模型之一。网友和老外对该模型架构及性能十分赞赏,认为其设计出色,能首次尝试就给出正确答案。
阿里设计全新模型架构Qwen3 – Next,是基于上下文长度扩展与总参数扩展是大模型未来发展两大核心趋势的判断,旨在提升长上下文和大参数场景下的训练与推理效率。相较于Qwen3的MoE结构,Qwen3 – Next进行多项关键改进,包括混合注意力机制、高稀疏性MoE结构、利于训练稳定性的优化手段和多token预测机制。
在核心特性上,Qwen3 – Next采用门控DeltaNet + 门控注意力的混合创新架构,将门控DeltaNet与标准注意力按3:1比例结合,实现性能与效率双重提升。标准注意力层也有多项增强。稀疏性设计上,采用超高稀疏性MoE结构,在不影响性能时最大化资源利用率。训练稳定性优化方面,采取多种手段保障模型数值稳定和训练平稳。多token预测机制不仅提升模型整体性能,还优化了多步推理性能。
预训练阶段,Qwen3 – Next效率卓越,训练数据为Qwen3的部分子集,GPU时长和计算成本降低,性能更优。推理速度在填充和解码阶段均有大幅提升。后训练阶段,指令模型和推理模型性能亮眼,指令模型在RULER基准测试中展现混合架构在长上下文任务中的优势,推理模型在多个基准测试击败Gemini – 2.5 – Flash – Thinking。
在线体验可访问https://chat.qwen.ai/ ,开源地址为https://huggingface.co/collections/Qwen/qwen3 – next – 68c25fd6838e585db8eeea9d等,阿里API为https://www.alibabacloud.com/help/en/model – studio/models#c5414da58bjgj 。
原文和模型
【原文链接】 阅读原文 [ 1586字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆