Efficient-VQGAN: 高分辨率图像生成的高效视觉 Transformer
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究使用Transformer模型架构,将自我关注机制限制在局部邻域,提高了模型处理大图像的能力,并在图像生成方面表现优异。此外,该研究还进行了图像超分辨率实验,发现其生成的图像比之前的最优模型更能欺骗人类观察者。
🎯
关键要点
-
该研究使用Transformer模型架构,限制自我关注机制在局部邻域。
-
模型显著提高了处理大图像的能力。
-
在图像生成方面,该模型优于当前最优秀的状态。
-
在ImageNet上,负对数似然从3.83提高到3.77。
-
进行了图像超分辨率实验,生成的图像更能欺骗人类观察者。
➡️