RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

AIGC动态1天前发布 AIera
138 0 0
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

 

文章摘要


【关 键 词】 强化学习大模型算力效率集群

大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于RL后训练的优化。然而,RL后训练阶段消耗了训练全流程20%的算力,未来可能飙升至50%,成为算力浪费和集群效率低下的主要瓶颈。华为团队通过两大创新技术——RL Fusion训推共卡和StaleSync准异步并行,成功解决了这一问题,显著提升了训练效率和资源利用率。

RL Fusion技术让一张卡同时兼顾训练和推理任务,资源利用率和吞吐量翻倍。 传统RL后训练中,训练和推理任务交替执行,导致大量算力闲置。RL Fusion通过支持训练推理共卡、全共卡等多种部署模式,实现了计算资源的高效利用。此外,针对大规模高稀疏比MoE模型,华为团队提出了训推内存0冗余切换技术,进一步优化了内存使用,使得训推切换过程优化到秒级,显著提升了集群利用率。

StaleSync准异步并行技术打破了同步算法的限制,使集群扩展效率超过90%,训练吞吐量再提升50%。 传统全同步迭代方式在大规模集群中扩展性较差,StaleSync通过容忍梯度的“陈旧性”,允许不同RL阶段的任务在“陈旧度阈值”内并行执行,从而提高了整体硬件资源的利用率。此外,StaleSync还引入了准异步调度机制,解决了Actor Rollout过程中长尾样本导致的效率降低问题,进一步提升了后训练吞吐量。

为了支持StaleSync的数据调度与管理,华为团队设计了分布式数据队列DistQueue,通过分层数据传输和零冗余通信技术,显著降低了通信量,提升了通信效率。在盘古长序列训练集的实测中,这些优化降低了80%以上的通信量,有效支撑了大规模集群训练的扩展效率。

RL Fusion与StaleSync的协同优化,形成了“资源复用+任务并行”的双重保障体系,显著提升了RL后训练的效率。 在实测中,RL Fusion训推共卡技术消除了RL后训练中的模型级空泡,单个超节点吞吐量提升了78.5%。结合StaleSync准异步技术,整体性能提升了1.5倍,集群扩展线性度达到91%,远超全同步方案的85%。

华为团队的这两大创新技术,不仅解决了RL后训练中的算力浪费和集群扩展瓶颈,还为百亿、千亿级大模型的后训练注入了强劲动力,推动了下一代AI效率革命的进程。

原文和模型


【原文链接】 阅读原文 [ 2432字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...