DiffiT:用于图像生成的扩散视觉 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
本研究提出了一种基于Vision Transformers构建的简单通用的U-ViT架构,实现了无条件和类条件图像生成以及文本到图像生成任务的优化。研究结果表明,长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。