DiM: 高效高分辨率图像合成的扩散灰曼巴
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种结合了 Mamba 和扩散模型的高效高分辨率图像合成方法 DiM,使用 ``weak-to-strong'' 训练策略和无需进一步微调的上采样策略提高训练和推理效率。
Matryoshka Diffusion Models (MDM)是一个端到端的框架,用于合成高分辨率的图像和视频。它通过在多个分辨率上联合去噪输入,使用嵌套UNet架构和从低分辨率到高分辨率的渐进训练安排,实现了高分辨率生成方面的显著优化改进。该方法在各种基准测试中展示了其有效性,包括类别条件的图像生成、高分辨率文本到图像和文本到视频应用。仅使用CC12M数据集中的1200万张图像,就可以训练一个单像素空间模型,分辨率为1024x1024像素,展示了强大的零样本泛化能力。