标签：在线学习

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

5个月前

微软：两个AI相互纠错，数学再涨5分

加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法，旨在提升大型语言模型（LLM）在数学问题解答中的推理能力。该方法通过在线学习流（Flow）和...

AIGC动态

9个月前