标签:数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...