文章摘要
【关 键 词】 AI大模型、超高速互连、Scale Up、ALS开放生态、技术创新
随着人工智能(AI)大模型的快速发展,对AI基础设施,尤其是互连技术提出了更高的要求。在2024年8月8日举行的OCP开放计算中国峰会上,阿里云的超高速互连负责人孔阳博士介绍了由阿里云发起的Scale Up开放生态ALS(ALink System,加速器互连系统)。通过深入交流,我们了解到AI大模型发展对互连技术的需求主要体现在两个方面:一是算力需求的爆炸式增长,二是在线服务的实时性和高吞吐需求。然而,单颗芯片的能力受到工艺制约,不能无限扩展,因此需要通过系统设计,利用软件算法将计算任务在多个GPU芯片上进行并行计算。这就需要具备芯片间的超大带宽互连,以支持低延迟、高吞吐的推理和训练。
Scale Up互连系统是AI集群互连架构的重要组成部分,与业务网络互连和Scale Out网络互连一起,承载了不同的业务流量。Scale Up网络互连主要负责推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量,对性能有超高要求,因此采用专门设计的协议,如NVIDIA的NVlink及NVSwitch技术,以及近期成立的UALink(Ultra Accelerator Link)协议联盟。
Scale Up互连对于下一代AI集群架构具有显著价值。从系统视角看,Scale Up结合Scale Out进行GPU集群扩展是最合理的选择;从场景视角看,AI应用需要大量内存语义访问和跨芯片访问带宽;从芯片视角看,Scale Up需要更高的带宽和更低的延迟。因此,Scale Up互连的特点是极致的资源实现极致的性能。
针对这一需求,阿里云倡议并牵头成立了ALS(ALink System,加速器互连系统)开放生态系统,旨在解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分,为AI训练和推理场景提供丰富的能力和特性支持。ALS-D支持UALink国际标准,提供高性能内存语义访问、显存共享和在网计算加速,并支持Switch组网模式,具有超高带宽和超低时延能力。ALS-M则为不同的芯片方案提供标准化接入方案,符合此规范的设备均可灵活接入应用方系统。
开放的Scale Up生态对于AI算力基础的未来具有重要意义。开放标准可以促进技术创新,为不同厂商之间建立桥梁,实现跨平台、跨领域的合作。阿里云超高速互连负责人孔阳博士认为,在开放的Scale UP技术生态下,行业可以按照共同的路径演进,形成合力,推动关键技术快速迭代,为整个基础设施的性能、稳定性、成本、兼容性提供坚实基础。阿里云基础设施服务器研发产业合作资深总监吴灵熙也提到,开放合作组织使整个行业的参与者都能从中获益,阿里云非常积极地投身其中,共建一个公平、开放和共享的社区文化。
总之,随着AI大模型的快速发展,Scale Up互连技术成为AI基础设施的关键组成部分。阿里云发起的ALS开放生态系统为解决行业发展规范问题提供了有力支持,推动了Scale Up互连技术的创新和应用,为构建高度集成、高性能的AI算力集群系统奠定了基础。开放的Scale Up生态将对AI算力基础的未来产生深远影响,促进行业的共同发展和技术创新。
原文和模型
【原文链接】 阅读原文 [ 3036字 | 13分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★