Apple Machine Learning Research ·

残余上下文扩散语言模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

残余上下文扩散语言模型（RCD）通过回收被丢弃的令牌，提升了扩散大语言模型（dLLMs）的效率。RCD将这些令牌转化为上下文残差，注入下一步去噪中。该方法在多个基准测试中提高了5-10个百分点的准确率，特别是在AIME任务中，准确率几乎翻倍，去噪步骤减少4-5倍。

🎯

🔎

残余上下文扩散语言模型（RCD）通过回收被丢弃的令牌，充分利用了这些令牌中蕴含的上下文信息。这种方法不仅提升了模型的准确率，还减少了去噪步骤，显示出在处理复杂任务时的潜力。理解这一点有助于研究人员在设计新模型时考虑如何有效利用被忽视的信息。

RCD采用了解耦的两阶段训练流程，成功避免了反向传播带来的内存瓶颈。这一创新为大规模模型的训练提供了新的思路，尤其是在资源有限的情况下，研究人员可以借鉴这一方法来优化模型训练的效率和效果。

RCD在多个基准测试中表现出色，准确率提高了5-10个百分点，尤其是在AIME任务中几乎翻倍。这表明，基准测试不仅是评估模型性能的工具，也是推动模型改进的重要驱动力。关注这些测试结果可以帮助研究者识别模型的优势和改进空间。

❓

残余上下文扩散语言模型（RCD）是一种通过回收被丢弃的令牌来提升扩散大语言模型（dLLMs）效率的方法。

RCD通过将被丢弃的令牌转化为上下文残差，并注入到下一步去噪中，从而提高了5-10个百分点的准确率。

在AIME任务中，RCD的准确率几乎翻倍，并且去噪步骤减少了4-5倍。

RCD使用解耦的两阶段训练流程，避免了反向传播带来的内存瓶颈。

RCD可以有效地将标准的dLLM转换为RCD范式，并在多个基准测试中提高性能。

RCD在提高准确率的同时，几乎没有额外的计算开销。

🏷️