标签:在线学习
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...
微软:两个AI相互纠错,数学再涨5分
加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法,旨在提升大型语言模型(LLM)在数学问题解答中的推理能力。该方法通过在线学习流(Flow)和...