RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

1,064 0 0

文章摘要

在大模型竞赛日益激烈的背景下，强化学习后训练（RL后训练）已成为突破大语言模型（LLM）性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功，均得益于RL后训练的优化。然而，RL后训练阶段消耗了训练全流程20%的算力，未来可能飙升至50%，成为算力浪费和集群效率低下的主要瓶颈。华为团队通过两大创新技术——RL Fusion训推共卡和StaleSync准异步并行，成功解决了这一问题，显著提升了训练效率和资源利用率。

RL Fusion技术让一张卡同时兼顾训练和推理任务，资源利用率和吞吐量翻倍。 传统RL后训练中，训练和推理任务交替执行，导致大量算力闲置。RL Fusion通过支持训练推理共卡、全共卡等多种部署模式，实现了计算资源的高效利用。此外，针对大规模高稀疏比MoE模型，华为团队提出了训推内存0冗余切换技术，进一步优化了内存使用，使得训推切换过程优化到秒级，显著提升了集群利用率。

StaleSync准异步并行技术打破了同步算法的限制，使集群扩展效率超过90%，训练吞吐量再提升50%。传统全同步迭代方式在大规模集群中扩展性较差，StaleSync通过容忍梯度的“陈旧性”，允许不同RL阶段的任务在“陈旧度阈值”内并行执行，从而提高了整体硬件资源的利用率。此外，StaleSync还引入了准异步调度机制，解决了Actor Rollout过程中长尾样本导致的效率降低问题，进一步提升了后训练吞吐量。

为了支持StaleSync的数据调度与管理，华为团队设计了分布式数据队列DistQueue，通过分层数据传输和零冗余通信技术，显著降低了通信量，提升了通信效率。在盘古长序列训练集的实测中，这些优化降低了80%以上的通信量，有效支撑了大规模集群训练的扩展效率。

RL Fusion与StaleSync的协同优化，形成了“资源复用+任务并行”的双重保障体系，显著提升了RL后训练的效率。在实测中，RL Fusion训推共卡技术消除了RL后训练中的模型级空泡，单个超节点吞吐量提升了78.5%。结合StaleSync准异步技术，整体性能提升了1.5倍，集群扩展线性度达到91%，远超全同步方案的85%。

华为团队的这两大创新技术，不仅解决了RL后训练中的算力浪费和集群扩展瓶颈，还为百亿、千亿级大模型的后训练注入了强劲动力，推动了下一代AI效率革命的进程。