标签：Flow-DPO

微软：两个AI相互纠错，数学再涨5分

加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法，旨在提升大型语言模型（LLM）在数学问题解答中的推理能力。该方法通过在线学习流（Flow）和...

AIGC动态

9个月前