标签:PRIME算法
清华团队靠强化学习让 7B 模型打败GPT-4o数学推理
清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的强化学习方法PRIME(Process Reinforcement through IMplicit REwards),该方...
仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理
清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的结合过程奖励的强化学习方法PRIME(Process Reinforcement through IMplicit R...