本研究提出了一种新颖的状态空间架构,结合小波变换,提升了传统扩散模型在图像生成中的局部特征感知能力。实验结果表明,该方法在基准测试中优于现有模型,训练收敛更快,输出质量更高。
本文介绍了基于状态空间架构构建扩散模型的新探索,通过训练扩散模型用于图像数据,使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。通过对 DiS 的评估,发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外,通过增加深度/宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下,达到了类条件 ImageNet 基准的性能水平,并显著减轻了计算负担。
完成下面两步后,将自动完成登录并继续当前操作。