具有状态空间支撑的可扩展扩散模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了基于状态空间架构构建扩散模型的新探索,通过训练扩散模型用于图像数据,使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。通过对 DiS 的评估,发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外,通过增加深度/宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下,达到了类条件 ImageNet 基准的性能水平,并显著减轻了计算负担。

🎯

关键要点

  • 本文介绍了基于状态空间架构构建扩散模型的新探索。

  • 使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。

  • DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。

  • 分析了 DiS 的可扩展性,通过 Gflops 量化前向传递复杂性进行评估。

  • 通过增加深度/宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。

  • 在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下达到了类条件 ImageNet 基准的性能水平。

  • DiS-H/2 模型显著减轻了计算负担。

➡️

继续阅读