DiffuCoder:理解与改进用于代码生成的掩蔽扩散模型

DiffuCoder:理解与改进用于代码生成的掩蔽扩散模型

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

扩散大语言模型(dLLMs)在代码生成中表现优异,尤其在去噪和全局规划方面。我们训练了一个7B参数的dLLM模型DiffuCoder,并分析其解码行为,发现其生成方式与自回归模型不同。我们提出的新采样方案coupled-GRPO显著提升了DiffuCoder在代码生成基准上的表现,并减少了对自回归偏差的依赖。

🎯

关键要点

  • 扩散大语言模型(dLLMs)在代码生成中表现优异,尤其在去噪和全局规划方面。
  • 我们训练了一个7B参数的dLLM模型DiffuCoder,并分析其解码行为。
  • DiffuCoder的生成方式与自回归模型不同,能够独立决定生成的因果性。
  • 增加采样温度不仅多样化了标记选择,还改变了生成顺序,创造了丰富的搜索空间。
  • 我们提出的新采样方案coupled-GRPO显著提升了DiffuCoder在代码生成基准上的表现。
  • coupled-GRPO减少了对自回归偏差的依赖,提升了训练效率。
  • 我们的研究为dLLM生成机制提供了更深入的见解,并提出了有效的扩散原生强化学习训练框架。
➡️

继续阅读