网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题

网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题

 

文章摘要


【关 键 词】 DCP技术ACM会议智算网络RDMA传输华为研究

近日,全球网络通信顶会 ACM SIGCOMM 2025 在葡萄牙落幕,华为网络技术实验室与香港科技大学 iSING Lab 合作的 DCP 研究成果获 Best Student Paper Award (Honorable Mention),成为亚洲地域唯一获奖论文。ACM SIGCOMM 是网络领域顶级学术会议,对论文质量要求高,与产业界联系紧密。本届投稿 463 篇,录用 75 篇,接收率仅 16.2%,全球仅 3 篇论文获奖。

一、背景:AI 大模型发展使算力需求激增,驱动集群网络组网规模扩大、通信距离拉远。当前智算网络大多沿用基于 PFC 流控的无损 RDMA 网络,但组网规模增大时,PFC 会带来头阻、死锁、运维等问题,还会面临 Buffer 不足问题。业界探索的有损 RDMA 路线也面临 ECMP 冲突、RTO 超时等问题,且对多路径、逐包均衡等技术兼容性不好。

二、DCP 设计思路:DCP 是联合设计交换机和 RNIC 的传输架构,包含 DCP – Switch 和 DCP – RNIC。它定义了数据平面(DP)和控制平面(CP),DCP – Switch 引入 Packet Trimming 功能,用加权轮询调度器确保 CP 无损、DP 有损运行。DCP – RNIC 利用无损 CP 特性增强可靠性,实现精确快速重传、无序包接收、无位图包跟踪等关键功能。

三、实验效果:对 DCP 进行了原型样机测试和大规模仿真实验。原型样机测试显示,DCP 传输技术与逐包负载均衡原生适配,丢包恢复效率、AI 工作负载完成时间、通用负载测试性能等方面均优于 Mellanox RNIC、IRN 和 MP – RDMA,10 公里长距测试实现接近理想的高吞吐。仿真实验表明,在智算和通算流量场景下,DCP 能降低任务完成时间和尾部流完成时间,1000 公里长距大规模实验中,其 P95 尾部完成时间降低效果显著。

四、总结:华为提出的 DCP 技术是面向有损网络的高性能 RDMA 传输架构,结合轻量级无损控制平面与高效 RNIC 设计,消除对 PFC 的依赖,支持包级负载均衡,避免 RTO。原型和仿真显示其性能显著优于现有 RDMA 解决方案,利于推进高性能 RDMA 传输技术在有损网络中的应用。此外,华为网络技术实验室在研究 AI – Native Transport(ANT),DCP 技术是 ANT 若干特性之一。

原文和模型


【原文链接】 阅读原文 [ 1851字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...