标签:GRPO

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...