
文章摘要
在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于RL后训练的优化。然而,RL后训练阶段消耗了训练全流程20%的算力,未来可能飙升至50%,成为算力浪费和集群效率低下的主要瓶颈。华为团队通过两大创新技术——RL Fusion训推共卡和StaleSync准异步并行,成功解决了这一问题,显著提升了训练效率和资源利用率。
RL Fusion技术让一张卡同时兼顾训练和推理任务,资源利用率和吞吐量翻倍。 传统RL后训练中,训练和推理任务交替执行,导致大量算力闲置。RL Fusion通过支持训练推理共卡、全共卡等多种部署模式,实现了计算资源的高效利用。此外,针对大规模高稀疏比MoE模型,华为团队提出了训推内存0冗余切换技术,进一步优化了内存使用,使得训推切换过程优化到秒级,显著提升了集群利用率。
StaleSync准异步并行技术打破了同步算法的限制,使集群扩展效率超过90%,训练吞吐量再提升50%。 传统全同步迭代方式在大规模集群中扩展性较差,StaleSync通过容忍梯度的“陈旧性”,允许不同RL阶段的任务在“陈旧度阈值”内并行执行,从而提高了整体硬件资源的利用率。此外,StaleSync还引入了准异步调度机制,解决了Actor Rollout过程中长尾样本导致的效率降低问题,进一步提升了后训练吞吐量。
为了支持StaleSync的数据调度与管理,华为团队设计了分布式数据队列DistQueue,通过分层数据传输和零冗余通信技术,显著降低了通信量,提升了通信效率。在盘古长序列训练集的实测中,这些优化降低了80%以上的通信量,有效支撑了大规模集群训练的扩展效率。
RL Fusion与StaleSync的协同优化,形成了“资源复用+任务并行”的双重保障体系,显著提升了RL后训练的效率。 在实测中,RL Fusion训推共卡技术消除了RL后训练中的模型级空泡,单个超节点吞吐量提升了78.5%。结合StaleSync准异步技术,整体性能提升了1.5倍,集群扩展线性度达到91%,远超全同步方案的85%。
华为团队的这两大创新技术,不仅解决了RL后训练中的算力浪费和集群扩展瓶颈,还为百亿、千亿级大模型的后训练注入了强劲动力,推动了下一代AI效率革命的进程。
原文和模型
【原文链接】 阅读原文 [ 2432字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★