机器之心 ·

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

香港大学与华为诺亚方舟实验室推出了扩散推理模型Dream 7B，突破了自回归与扩散模型在生成任务中的界限。该模型在通用能力、数学推理和编程任务上表现优异，展示了扩散建模在自然语言处理中的潜力。研究团队将发布模型权重，并将继续优化扩散语言模型。

🎯

🔎

Dream 7B模型展示了扩散建模在自然语言处理中的独特优势，尤其在复杂推理和长期规划方面。与传统自回归模型相比，扩散模型能够更好地处理多重约束问题，展现出更高的灵活性和全局连贯性。这为未来的语言模型发展提供了新的方向和可能性。

尽管自回归模型在文本生成领域占据主导地位，但其在复杂推理和长期规划方面的局限性逐渐显现。这些限制在新兴应用领域尤为关键，扩散模型的引入可能为解决这些问题提供了新的思路。研究者们应关注扩散模型在实际应用中的表现与潜力。

Dream 7B的训练过程采用了上下文自适应token级噪声重排机制，这一创新显著提升了模型对不同上下文信息的学习效果。通过结合自回归模型的初始化权重，Dream 7B在训练效率和效果上均取得了突破，为扩散语言模型的进一步发展奠定了基础。

❓

Dream 7B模型突破了自回归与扩散模型的界限，在通用能力、数学推理和编程任务上表现优异，展现了扩散建模在自然语言处理中的潜力。

扩散模型在生成文本时具有双向上下文建模、灵活的可控生成能力和更好的全局连贯性，尤其在复杂推理和长期规划方面表现更佳。

Dream 7B的训练数据覆盖文本、数学和代码领域，主要来源于Dolma v1.7、OpenCoder和DCLM-Baseline。

Dream 7B在规划能力上表现出独特优势，能够有效处理多重约束问题和特定目标任务，超越同级别的自回归模型。

Dream 7B实施了有监督微调，整合了180万对高质量指令-响应数据，经过三轮深度微调以增强与用户指令的对齐度。

未来扩散模型的发展方向包括继续优化后训练方案，探索其在特定应用中的潜力，尽管自回归模型仍是主流。

🏷️