少数派 ·

当文与图的界限开始模糊：聊聊自回归与扩散模型的「串台」趋势

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

自回归模型适合生成离散信号的文本，而扩散模型更适合处理连续信号的图像。两者的本质差异源于文字和图像的特性。新模型Gemini通过转换技术实现多模态任务，但自回归模型在复杂图像生成上可能存在瓶颈。理解这些技术原理有助于选择合适的方案。

🎯

🔎

在选择自回归模型或扩散模型时，理解它们各自的优势至关重要。自回归模型适合处理离散信号的文本生成，而扩散模型则在图像生成中表现更佳。用户应根据具体需求，选择最合适的模型，以确保生成内容的质量和效果。

新模型如Gemini通过引入VQ Tokenizer实现了多模态任务的处理，但这也带来了新的挑战。模型需要维护额外的模块，确保特征转换的准确性。同时，离散化过程可能导致信息损失，影响生成图像的细节和美感。

尽管自回归模型在文本生成中表现出色，但在复杂图像生成任务上可能遇到瓶颈。尤其是在表达美学直觉时，离散化可能无法充分捕捉图像的细腻特征。因此，在高要求的图像生成场景中，扩散模型仍然是更优选择。

❓

自回归模型适合生成离散信号的文本，而扩散模型更适合处理连续信号的图像。

因为自回归模型在表达美学直觉时，难以用语言精确描述复杂的图像特征。

Gemini通过引入VQ Tokenizer模块，将连续信号转换为离散信号，从而实现多模态任务。

扩散模型模拟图像绘制的渐进细化过程，通过特征的概率分布逐步生成图像。

自回归模型在图像分辨率上不及现阶段的扩散模型。

文字由有限的符号构成，属于离散信号；而图像具有无限的特征，属于连续信号。

🏷️