标签:实验评估

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理

清华和上交的最新研究对当前“纯强化学习(RL)有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验,研究者发现引入强化学习的模型在某些任务中的...