使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

文章摘要
【关 键 词】 强化学习、数独、语言模型、GRPO、奖励函数
Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理和逻辑推理的难题,对语言模型提出了独特的挑战。模型需要遵循严格的规则,保持一致的网格格式,并逐步推理出正确的解答。尽管语言模型的设计初衷是预测文本,而非解决结构化问题,但通过强化学习,它们仍然能够掌握这些技能。
实验使用了来自 Kaggle 的包含 400 万数独的数据集,并根据难度级别进行了分类。每个数独被转换为网格格式,并封装在精心设计的提示词中,以指示模型逐步思考并提供最终答案。实验采用了两种不同大小的模型:Qwen 2.5 7B Instruct 和 Qwen 2.5 3B Instruct,并使用了 LoRA 进行微调。值得注意的是,实验没有使用任何冷启动数据,而是单纯依赖强化学习进行训练。
强化学习的核心在于奖励函数的设计。实验中,奖励函数被细分为多个部分,包括格式合规性奖励、网格架构奖励、解答准确度奖励和规则合规奖励。这些奖励函数共同作用,帮助模型学会保持正确的格式、遵守数独规则,并逐步生成正确的解答。实验结果显示出模型大小对学习稳定性和性能的显著影响。7B 模型表现出了稳定的训练动态和逐步提升的奖励指标,而 3B 模型则出现了严重的不稳定性,最终无法完成训练。
实验的启示包括:复杂推理任务需要一定的模型能力才能稳定学习;稳定的训练动态是学习的前提;多成分奖励能够更有效地指导学习过程;强化学习可以教授语言模型结构化思维。未来,计划通过增加难度、扩大计算规模、探索模型架构、蒸馏法和实施更复杂的奖励函数来进一步改进模型性能。
让语言模型学会玩数独不仅仅是解谜娱乐,还涉及到开发能够完成结构化流程、逻辑推理、格式一致性等任务的 AI 系统。这些功能在编程、数学问题求解、科学推理和形式验证等领域具有广泛的应用前景。尽管 7B 模型的初步结果令人鼓舞,但实验仍处于早期阶段,未来还有许多需要探索和改进的地方。
原文和模型
【原文链接】 阅读原文 [ 3511字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★