具有状态空间支撑的可扩展扩散模型

本文介绍了基于状态空间架构构建扩散模型的新探索，通过训练扩散模型用于图像数据，使用状态空间骨干替代传统的 U-Net 骨干，处理原始补丁或潜在空间的图像。通过对 DiS 的评估，包括无条件和类条件的图像生成场景，发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外，我们还分析了 DiS 的可扩展性，通过 Gflops...

本文介绍了基于状态空间架构构建扩散模型的新探索，通过训练扩散模型用于图像数据，使用状态空间骨干替代传统的 U-Net 骨干，处理原始补丁或潜在空间的图像。通过对 DiS 的评估，发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外，通过增加深度/宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型，始终表现出更低的 FID。在潜在空间中，DiS-H/2 模型在 256x256 和 512x512 分辨率下，达到了类条件 ImageNet 基准的性能水平，并显著减轻了计算负担。

DiS U-Net 图像数据扩散模型状态空间架构