Apple Machine Learning Research ·

Kaleido扩散：通过自回归潜在建模改善条件扩散模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Kaleido是一种新方法，通过引入自回归潜在先验，增强条件扩散模型的样本多样性。它结合自回归语言模型生成潜在变量，丰富输入条件，提高生成图像的多样性和质量。实验结果表明，Kaleido有效扩展了基于文本描述生成的图像样本的多样性，同时保持高质量。

🎯

🔎

Kaleido通过引入自回归潜在先验，显著提升了条件扩散模型的样本多样性。这种方法不仅丰富了输入条件，还通过生成潜在变量来引导图像生成，解决了传统模型在多样性方面的不足。

实验表明，Kaleido在保持高图像质量的同时，能够有效扩展基于文本描述生成的图像样本的多样性。这一发现对图像生成领域具有重要意义，可能推动更多创新应用的出现。

Kaleido利用多种离散潜在表示，如文本描述和视觉标记，来丰富输入条件。这种多样化的输入方式使得生成的图像更具表现力，能够更好地满足用户的需求。

❓

Kaleido通过引入自回归潜在先验，增强了条件扩散模型的样本多样性。

Kaleido结合自回归语言模型生成潜在变量，丰富输入条件，从而提高生成图像的多样性和质量。

实验结果表明，Kaleido有效扩展了基于文本描述生成的图像样本的多样性，同时保持高质量。

Kaleido能够有效控制和引导图像生成过程，紧密遵循生成的潜在变量提供的指导。

Kaleido探索了多种离散潜在表示，包括文本描述、检测边界框、对象块和视觉标记。

Kaleido通过引入潜在变量，克服了传统自回归模型在生成过程中可能出现的重复和低质量输出问题。

🏷️