扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

机器之心 ·

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

新的扩散模型框架d1通过强化学习提升了大语言模型的推理能力，采用两阶段后训练方法结合监督微调和diffu-GRPO策略梯度，显著改善了数学和逻辑推理任务的表现。

🎯

关键要点

新的扩散模型框架d1通过强化学习提升了大语言模型的推理能力。
d1采用两阶段后训练方法结合监督微调和diffu-GRPO策略梯度。
强化学习方法在推理任务上取得显著改进，显示出与自回归模型相媲美的性能。
离散扩散大语言模型（dLLM）成为非自回归语言建模的潜力替代。
顶级开源dLLM尚未使用RL后训练，存在研究空间。
d1框架的第一阶段为监督微调，第二阶段为引入新策略梯度方法diffu-GRPO。
研究者提出的对数概率估计器提高了计算效率，降低了RL训练的计算时间。
实验结果显示d1-LLaDA在数学和逻辑推理基准测试中优于基础模型。
diffu-GRPO在所有设置中均优于基础LLaDA和SFT，显示出更强的整体性能提升。
d1训练方案实现了显著的性能提升，表明两个训练阶段存在协同效应。
在生成的推理轨迹中，SFT和d1-LLaDA模型展现出自我修正机制和回溯行为。

❓

延伸问答

d1框架是如何提升大语言模型的推理能力的？

d1框架通过两阶段后训练方法结合监督微调和diffu-GRPO策略梯度，显著改善了推理能力。

什么是diffu-GRPO，它在d1框架中起什么作用？

diffu-GRPO是一种新颖的策略梯度方法，用于掩码dLLM，能够有效提升推理性能。

d1框架与传统的自回归模型相比有什么优势？

d1框架的离散扩散大语言模型（dLLM）在推理任务上表现出与自回归模型相媲美的性能，且具有非自回归的优势。

d1框架的两个训练阶段分别是什么？

第一个阶段是监督微调，第二个阶段是引入diffu-GRPO策略梯度进行强化学习。

实验结果显示d1-LLaDA的性能如何？

实验结果表明，d1-LLaDA在数学和逻辑推理基准测试中始终优于基础模型和仅使用SFT或diffu-GRPO的模型。

d1框架的研究空间有哪些？

顶级开源dLLM尚未使用RL后训练，表明在这一领域还有很大的研究空间。

🏷️

继续阅读

Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本
西湖大学的张岳团队推出了智能科研插图生成系统AutoFigure，旨在解决高质量科研插图的生成难题。该系统基于长篇科学文本，确保插图的逻辑结构准确且视觉美...
[MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志 - Artech
LoggingChatClient是一个IChatClient中间件，用于记录调用日志，帮助调试和监控Agent行为。它记录输入、输出及时间戳信息，并支持...
InterServer美国VPS特价$3/月：1核/2G/40G SSD，洛杉矶/达拉斯/纽约可选
InterServer提供特价VPS服务，价格从每月$3起，支持洛杉矶、达拉斯和纽约数据中心。产品包括常规VPS、大硬盘存储VPS和Windows VPS...
OpenClaw v2026.6.1：Windows原生节点、支持MiniMax M3
OpenClaw 2026.6.1版本发布，支持Windows原生节点，简化使用流程。新增Agent技能工坊，允许Agent自学修复问题并存储技能。工作板...
苹果本周将在德克萨斯州推出年龄验证功能
苹果将在德克萨斯州推出年龄验证功能，用户在创建新账户时需确认年龄超过18岁。这是因德州的应用商店责任法案生效所致。未满18岁的用户需加入家庭共享组，家长需...
外壳的铸造 — v5的诞生
文章讨论了v5的诞生过程，描述了旧服务器的迁移与更新。团队通过483次提交逐步改进系统，保持了连续性。对比旧版与新版，揭示了数据结构的变化和命名的困惑，强...