网络顶会获奖！华为提出端网协同RDMA传输架构，解决大规模AI集群网络可扩展性问题

AIGC动态3小时前发布 almosthuman2014

58 0 0

网络顶会获奖！华为提出端网协同RDMA传输架构，解决大规模AI集群网络可扩展性问题

文章摘要

近日，全球网络通信顶会 ACM SIGCOMM 2025 在葡萄牙落幕，华为网络技术实验室与香港科技大学 iSING Lab 合作的 DCP 研究成果获 Best Student Paper Award (Honorable Mention)，成为亚洲地域唯一获奖论文。ACM SIGCOMM 是网络领域顶级学术会议，对论文质量要求高，与产业界联系紧密。本届投稿 463 篇，录用 75 篇，接收率仅 16.2%，全球仅 3 篇论文获奖。

一、背景：AI 大模型发展使算力需求激增，驱动集群网络组网规模扩大、通信距离拉远。当前智算网络大多沿用基于 PFC 流控的无损 RDMA 网络，但组网规模增大时，PFC 会带来头阻、死锁、运维等问题，还会面临 Buffer 不足问题。业界探索的有损 RDMA 路线也面临 ECMP 冲突、RTO 超时等问题，且对多路径、逐包均衡等技术兼容性不好。

二、DCP 设计思路：DCP 是联合设计交换机和 RNIC 的传输架构，包含 DCP – Switch 和 DCP – RNIC。它定义了数据平面（DP）和控制平面（CP），DCP – Switch 引入 Packet Trimming 功能，用加权轮询调度器确保 CP 无损、DP 有损运行。DCP – RNIC 利用无损 CP 特性增强可靠性，实现精确快速重传、无序包接收、无位图包跟踪等关键功能。

三、实验效果：对 DCP 进行了原型样机测试和大规模仿真实验。原型样机测试显示，DCP 传输技术与逐包负载均衡原生适配，丢包恢复效率、AI 工作负载完成时间、通用负载测试性能等方面均优于 Mellanox RNIC、IRN 和 MP – RDMA，10 公里长距测试实现接近理想的高吞吐。仿真实验表明，在智算和通算流量场景下，DCP 能降低任务完成时间和尾部流完成时间，1000 公里长距大规模实验中，其 P95 尾部完成时间降低效果显著。

四、总结：华为提出的 DCP 技术是面向有损网络的高性能 RDMA 传输架构，结合轻量级无损控制平面与高效 RNIC 设计，消除对 PFC 的依赖，支持包级负载均衡，避免 RTO。原型和仿真显示其性能显著优于现有 RDMA 解决方案，利于推进高性能 RDMA 传输技术在有损网络中的应用。此外，华为网络技术实验室在研究 AI – Native Transport（ANT），DCP 技术是 ANT 若干特性之一。