标签：RL算法

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

字节跳动与清华大学AIR联合实验室SIA Lab近期推出了一种名为DAPO的强化学习（RL）算法，该算法在AIME 2024基准测试中表现优异，超越了DeepSeek的GRPO算法。DA...

AIGC动态

5个月前