小红花·文摘

本研究提出了一种新颖的状态空间架构，结合小波变换，提升了传统扩散模型在图像生成中的局部特征感知能力。实验结果表明，该方法在基准测试中优于现有模型，训练收敛更快，输出质量更高。

DiMSUM: Diffusion Cobra - A Scalable Unified Spatial-Frequency Image Generation Method

BriefGPT - AI 论文速递 ·

本文介绍了基于状态空间架构构建扩散模型的新探索，通过训练扩散模型用于图像数据，使用状态空间骨干替代传统的 U-Net 骨干，处理原始补丁或潜在空间的图像。通过对 DiS 的评估，发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外，通过增加深度/宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型，始终表现出更低的 FID。在潜在空间中，DiS-H/2 模型在 256x256 和 512x512 分辨率下，达到了类条件 ImageNet 基准的性能水平，并显著减轻了计算负担。

具有状态空间支撑的可扩展扩散模型

BriefGPT - AI 论文速递 ·