MoE模型已成新风口,AI基础设施竞速升级

MoE模型已成新风口,AI基础设施竞速升级

 

文章摘要


【关 键 词】 AI基础设施MoE算力数据库

近期开源的 Llama 4 系列模型因基准测试成绩与实际表现差异较大而引发争议,但MoE(混合专家)架构被认为是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越来越多的 MoE 架构模型正在进入世界最前沿模型之列。英伟达也已开始针对 MoE 架构设计和优化自家的计算硬件。然而,大规模 MoE 架构也带来了独特的挑战,包括 token drop 选择对吞吐的影响、路由专家与共享专家之间的效率与效果权衡、专家的选取数量和比例等。

在 AI 势能大会的 AI 基础设施峰会上,阿里云智能集团副总裁汪军华详细探讨了这些挑战,并宣布了阿里云在解决这些难题上的重大进展。阿里云推出了FlashMoE,这是一款支持超大规模 MoE 混合精度训练的高性能训练框架,具备多种强大特性,如支持多种 token 路由策略、上下文并行与张量并行解耦等。阿里云不仅在 MoE 架构上取得了突破,还在硬件算力、一体化训练和推理服务等方面持续投入,夯实了其在 AI 基础设施领域的领先地位

在算力方面,阿里云宣布 ECS 第 9 代 Intel 企业级实例正式开启商业化,基于英特尔第六代至强处理器 GNR 和阿里云最新 CIPU 架构,集群性能相对前代提升最高达 20%,同时价格较上代再降 5%。此外,阿里云还对灵骏集群进行了优化,将其构造成云超级计算机,技术体系包括 HPN 高性能网络、CPFS 高性能文件存储、定制化的 AI 服务器以及强大的故障检测能力。HPN 7.0 高性能网络架构可实现单集群 10 万张 GPU 卡互联,提供 3.2T 跨机带宽。灵骏管控和自愈系统则降低了故障频次,缩短了故障恢复时间,在万卡级超大规模训练中,一个月内灵骏 GPU 集群有效训练时长占比超过 93%

在存储技术方面,阿里云推出了 CPFS 高性能存储与 OSS 对象存储服务。CPFS 支持对数据毫秒级的访问和百万级 IOPS 的数据读写请求,实现 40 GB/s 的单客户端吞吐性能,并针对 AI 应用进行了优化。OSS 则适用于存储大量非结构化数据,具有海量、安全、易集成、低成本、高可靠的优势。阿里云还推出了高性能的 OSSFS 2.0,专门用于通过挂载方式高性能访问 OSS,并首次将缺省 100 Gbps 吞吐性能扩展到了海外(新加坡)。OSS 同城冗余已在吉隆坡上线,覆盖全球 12 个地域

在安全与稳定性方面,阿里云构建了一整套保障算力稳定供给和数据安全的体系,包括 20 多款云产品和近百项可一键开启的安全能力。针对 MoE 结构和推理模型,阿里云人工智能平台 PAI 推出了一系列新能力,包括 PAI-Chatlearn 和 Post-training on PAI-DLC。PAI-Chatlearn 是一种支持多种强化学习算法的大规模对齐训练框架,而 Post-training on PAI-DLC 则包含 SFT 等后训练能力。FlashMoE 在万卡规模上,可将 MoE 训练的 MFU(模型 Flops 利用率)提升到 35-40%

在推理加速方面,阿里云推出的全新模型权重服务将 1-100 节点的冷启动速度提升了 21 倍,分布式推理系统的规模化扩容效率提升了 12 倍。基于 KV Cache 的分布式推理服务 PAI-EAS 可将千万级活跃用户场景的 KV Cache 命中率提升 10 倍,基于 3FS 的存储系统 IO 效率大幅提升(读吞吐提升了 43%,写吞吐提升了 27%)。PAI-EAS 具备负载感知的 PD 分离架构,端到端服务吞吐提升 91%。针对 MoE 模型,阿里云推出了分布式推理引擎 Llumnix,相比于 Round-robin 请求调度方案,可将 TTFT(首 token 延迟)降低 92%(P99),将 TPOT(每输出 token 延迟)降低 15%(P99)。

数据库方面,阿里云实现了模型即算子(Model as an Operator)的 In-DB AI 功能,将模型作为算子直接内嵌到数据库中,能使用更低的推理成本获得同等的 AI 能力。阿里云还采用了 Data+AI 的设计理念,通过统一 CPU 和 GPU 资源池,瑶池数据库实现了资源池化,支持分时分片弹性调度,帮助客户降本增效。Tair 从互联网架构演进成了面向 AI 时代的架构,通过基于 Tair 内存池的 KV Cache 多级管理,为大模型推理提供高效的 KV Cache 存储和复用。阿里云还将于今年下半年发布全球首款基于 CXL(Compute Express Link)交换机的数据库专用服务器,进一步提升三层解耦架构下计算与内存之间的通信带宽与效率。

阿里云在 AI 基础设施领域的创新和投入,为开发者和企业搭建了一个坚实的平台,使他们能够专注于算法创新和应用开发,而无需过度关注底层计算资源的限制。正如吴结生所说,云计算是一种公共服务,随着 AI 的发展,智能会变成一种资源,就像水和电一样。阿里云正携手企业和开发者,共同迈向智能化的未来,在这场奔赴未来的基建竞速中,阿里云已在路上。

原文和模型


【原文链接】 阅读原文 [ 3032字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...