机器之心 ·

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

技术博主Hrishbh Dalal利用GRPO算法，通过强化学习成功训练7B参数模型解决数独问题。实验结果显示，模型在缺乏冷启动数据的情况下，能够通过合理的奖励机制学习结构化思维和逻辑推理，最终高效解答数独。

🎯

关键要点

Hrishbh Dalal利用GRPO算法，通过强化学习成功训练7B参数模型解决数独问题。
模型在缺乏冷启动数据的情况下，通过合理的奖励机制学习结构化思维和逻辑推理。
数独问题的解答需要遵循严格的规则和逐步的逻辑推理。
实验使用了来自Kaggle的400万数独数据集，经过难度分类和格式转换。
强化学习的核心是奖励函数，设计了多分量奖励系统以指导模型学习。
7B模型在训练中表现优良，保持了稳定的完成长度和奖励指标提升。
3B模型表现不佳，出现灾难性的不稳定性，未能保持一致的性能。
实验揭示了复杂推理任务的教学启示，包括模型能力的最低要求和稳定性的重要性。
未来计划增加难度、扩大计算规模和探索模型架构等。
设计更复杂的奖励函数以提高学习效率和解答质量。
教语言模型解决数独不仅是为了娱乐，还能应用于编程、数学问题求解和科学推理等领域。

❓

延伸问答

GRPO算法在数独问题中是如何应用的？

GRPO算法通过强化学习训练模型，使其在没有冷启动数据的情况下学习解答数独问题。

7B模型与3B模型在训练中的表现有什么不同？

7B模型表现优良，保持稳定的完成长度和奖励指标提升，而3B模型则出现灾难性的不稳定性，未能保持一致性能。

强化学习的奖励系统是如何设计的？

奖励系统设计了多分量奖励，包括格式合规性、解答准确度和规则合规奖励，以指导模型学习。

数独解答需要遵循哪些规则？

数独解答需遵循每行、每列和每框包含数字1-9且不重复的规则。

实验中使用的数据集有什么特点？

实验使用了来自Kaggle的400万数独数据集，经过难度分类和格式转换，包含不同难度的数独。

未来的研究计划包括哪些方面？

未来计划增加难度、扩大计算规模、探索模型架构和设计更复杂的奖励函数等。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。