吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

1,724 0 0

文章摘要

字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow（开源项目名：veRL）的灵活且高效的强化学习（RL）/RLHF框架。该框架采用混合编程模型，结合单控制器的灵活性和多控制器的高效性，解耦控制流和计算流，提升了训练吞吐量并降低了开发和维护的复杂度。HybridFlow基于Ray的分布式编程，动态计算图和异构调度能力，通过封装单模型的分布式计算、统一模型间的数据切分，以及支持异步RL控制流，实现了各种RL算法的高效执行和模型部署的灵活性。实验结果显示，在不同模型规模和RL算法下，HybridFlow的训练吞吐量比其他框架提升了1.5倍至20倍。该研究成果已被EuroSys 2025接收，代码仓库也已对外公开。

HybridFlow的设计包括封装单模型分布式计算、灵活的模型部署、统一模型间的数据切分和支持异步RL控制流。它通过优化数据传输，降低了控制流与计算流之间的传输量，兼顾了灵活性和高效性。此外，HybridFlow还设计了3D-HybridEngine来降低通信内存开销，通过优化并行分组方法实现了零冗余的模型参数重组，减少了通信量和过渡时间，提高了整体的训练效率。

在16台A100 GPU集群上的对比实验显示，HybridFlow在各种模型规模和RLHF算法下都显著优于其他框架，实现了更高的训练吞吐量。HybridFlow的3D-HybridEngine的零冗余模型参数重组技术有效减少了模型参数在训练和生成阶段之间的重分片和通信开销。团队还总结了模型部署和GPU分配的三大关键洞察，包括为Actor模型分配更多的GPU可以缩短critical path，Colocate模式在小规模集群中能够最大化GPU利用率，以及在大规模集群中将Actor和Critic模型部署在不同的设备能够提升扩展率。HybridFlow同样适用于更广泛的RL训练场景，团队后续将围绕相关场景进行探索和实验。