Apple Machine Learning Research ·

学习扩散语言模型的解码策略

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了扩散语言模型（dLLMs）的采样策略，提出通过强化学习训练采样过程，以提高解码效率和样本质量。研究表明，基于单层变换器的轻量级策略在全扩散设置中优于传统启发式方法，尤其在代码生成任务中表现出色。

🎯

🔎

扩散语言模型（dLLMs）在许多任务上与自回归模型的性能相当，但在推理过程中更为高效。这使得dLLMs在处理大规模数据时，能够更快地生成结果，尤其适合需要实时反馈的应用场景，如代码生成和自然语言处理。

本文提出通过强化学习训练采样过程，显著提高了解码效率和样本质量。与传统的启发式方法相比，这种基于单层变换器的轻量级策略在全扩散设置中表现更佳，尤其在代码生成任务中，能够更好地利用计算资源，提升生成结果的准确性。

虽然传统的启发式策略如置信度阈值在样本质量上有所提升，但其需要手动调优，并且在较大块大小时性能会下降。这一局限性使得在实际应用中，开发者需要花费更多时间进行优化，而强化学习方法则提供了一种更为自动化的解决方案。

❓

扩散语言模型（dLLMs）是一种新型语言模型，能够在许多任务上与自回归模型的性能相匹配，并在推理过程中更高效。

dLLMs的采样过程决定了在每个扩散步骤中解锁哪些标记，这对模型的性能和效率至关重要。

传统的启发式策略如置信度阈值需要手动调优，并且在较大块大小时性能会下降。

通过将掩蔽扩散采样形式化为马尔可夫决策过程，利用强化学习训练采样过程，以提高解码效率和样本质量。

这种轻量级策略能够将dLLM标记置信度映射到解锁决策，在全扩散设置中优于传统的启发式方法。

实验表明，dLLMs在代码生成任务中表现出色，尤其是结合半自回归生成时，能够超越传统的启发式方法。

🏷️