Apple Machine Learning Research ·

通过自回归模型的适应扩展扩散语言模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

扩散语言模型（DLMs）旨在克服自回归模型的局限性。本文提出通过适应自回归模型构建文本扩散模型，展示了自回归与扩散建模目标之间的联系，并介绍了一种持续预训练方法。实验结果表明，转换后的模型在语言建模和推理基准上表现优异，超越了早期的DLMs，并与自回归模型竞争。

🎯

关键要点

扩散语言模型（DLMs）旨在克服自回归模型的局限性。
当前的DLMs在规模上较小，缺乏与自回归模型的公平比较。
提出通过适应自回归模型来构建文本扩散模型。
展示了自回归与扩散建模目标之间的联系。
介绍了一种简单的持续预训练方法来训练扩散模型。
实验结果表明，转换后的模型在语言建模和推理基准上表现优异，超越了早期的DLMs。
发布了一系列DLMs（127M-355M-7B），能够生成流畅文本，进行上下文学习，填补中间内容，并遵循指令。

❓

延伸问答

扩散语言模型（DLMs）有什么优势？

扩散语言模型旨在克服自回归模型的局限性，能够生成流畅文本并进行上下文学习。

如何将自回归模型适应为扩散模型？

通过适应自回归模型并引入简单的持续预训练方法，可以构建文本扩散模型。

实验结果显示转换后的模型表现如何？

实验结果表明，转换后的模型在语言建模和推理基准上表现优异，超越了早期的DLMs。

扩散语言模型的参数范围是什么？

发布的扩散语言模型参数范围从127M到7B不等。

扩散语言模型在生成文本时有哪些能力？

扩散语言模型能够生成流畅文本、进行上下文学习、填补中间内容并遵循指令。

为什么当前的DLMs与自回归模型缺乏公平比较？

当前的DLMs在规模上较小，尚未进行充分的比较。

🏷️

继续阅读

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...