Matryoshka Diffusion Models (MDM)是一个端到端的框架,用于合成高分辨率的图像和视频。它通过在多个分辨率上联合去噪输入,使用嵌套UNet架构和从低分辨率到高分辨率的渐进训练安排,实现了高分辨率生成方面的显著优化改进。该方法在各种基准测试中展示了其有效性,包括类别条件的图像生成、高分辨率文本到图像和文本到视频应用。仅使用CC12M数据集中的1200万张图像,就可以训练一个单像素空间模型,分辨率为1024x1024像素,展示了强大的零样本泛化能力。
本文提出了一种在预训练自编码器的潜在空间中应用流匹配的方法,以提高高分辨率图像合成的计算效率和可扩展性,并实现各种条件下的图像生成、修复和语义到图像的生成。经实验证明,该方法在各种数据集上均有效,并提供了理论控制。
完成下面两步后,将自动完成登录并继续当前操作。