文章摘要
【关 键 词】 Arctic模型、Dense-MoE架构、高效计算、开源代码、推理优化
Snowflake的Arctic模型以其128位专家和4800亿参数的规模,成为目前最大的开源模型。该模型基于Dense-MoE架构设计,由一个10B的稠密Transformer模型和128×3.66B的MoE MLP组成,并在3.5万亿个token上进行了训练。Arctic模型的特点是其庞大的规模和稀疏性,使其能够在计算资源上实现高效利用,仅用不到Llama 3 8B模型一半的资源就达到了相同的性能指标。
Arctic模型在企业智能指标和学术基准上均展现出优异的表现。在企业智能指标方面,包括编码(HumanEval+和MBPP+)、SQL生成(Spider)和指令遵循(IFEval)等任务中,Arctic超越了其他开源模型,如Mixtral 8×7B。在学术基准方面,尽管Arctic在MMLU等世界知识指标上的得分较低,但这与其保持较小训练预算的目标相符,且这些指标并不一定与企业智能直接相关。
Arctic模型的训练效率得益于其独特的Dense-MoE Hybrid transformer架构,该架构结合了一个10B规模的稠密Transformer模型与一个128×3.66B规模的残差MoE MLP。通过top-2 gating的方式,Arctic在生成期间只选择了17B个参数保持活跃,从而实现了资源高效的训练和推理。
此外,Arctic模型还展现了出色的推理效率。在较小batch的交互式推理中,Arctic的内存读取次数比其他模型少,实现了更快的推理性能。在较大batch size的情况下,Arctic的计算需求减少了4倍,实现了高吞吐量的推理。
Arctic模型的开源代码已在GitHub上发布,允许任何人将其用于研究、产品、原型等。Snowflake正在与英伟达TensorRT-LLM和vLLM合作,为Arctic模型开发初始的推理实现,并针对批大小为1的交互式使用进行了优化。这标志着企业级AI训练成本的降低,使得用户可以以极低的成本创建满足企业需求的高质量定制模型。
原文和模型
【原文链接】 阅读原文 [ 4647字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★