标签：数独

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中，探索了如何通过强化学习（尤其是 DeepSeek 开发的 GRPO 算法）让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

AIGC动态

4个月前