💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
扩散大语言模型(dLLMs)在代码生成中表现优异,尤其在去噪和全局规划方面。我们训练了一个7B参数的dLLM模型DiffuCoder,并分析其解码行为,发现其生成方式与自回归模型不同。我们提出的新采样方案coupled-GRPO显著提升了DiffuCoder在代码生成基准上的表现,并减少了对自回归偏差的依赖。
🎯
关键要点
- 扩散大语言模型(dLLMs)在代码生成中表现优异,尤其在去噪和全局规划方面。
- 我们训练了一个7B参数的dLLM模型DiffuCoder,并分析其解码行为。
- DiffuCoder的生成方式与自回归模型不同,能够独立决定生成的因果性。
- 增加采样温度不仅多样化了标记选择,还改变了生成顺序,创造了丰富的搜索空间。
- 我们提出的新采样方案coupled-GRPO显著提升了DiffuCoder在代码生成基准上的表现。
- coupled-GRPO减少了对自回归偏差的依赖,提升了训练效率。
- 我们的研究为dLLM生成机制提供了更深入的见解,并提出了有效的扩散原生强化学习训练框架。
🏷️
标签
➡️