本研究提出了一种基于Vision Transformers构建的简单通用的U-ViT架构,实现了无条件和类条件图像生成以及文本到图像生成任务的优化。研究结果表明,长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。
该研究提出了一种基于Vision Transformers构建的U-ViT架构,采用标记方法对所有输入进行处理,并在浅层和深层之间采用长跳过连接,实现无条件和类条件图像生成,以及文本到图像生成任务的优化。长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。
完成下面两步后,将自动完成登录并继续当前操作。