标签：PRIME算法

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的强化学习方法PRIME（Process Reinforcement through IMplicit REwards），该方...

AIGC动态

8个月前

仅用 8 张显卡和一万块钱，清华团队用7B模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的结合过程奖励的强化学习方法PRIME（Process Reinforcement through IMplicit R...

AIGC动态

8个月前