Efficient-VQGAN: 高分辨率图像生成的高效视觉 Transformer

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用Transformer模型架构,将自我关注机制限制在局部邻域,提高了模型处理大图像的能力,并在图像生成方面表现优异。此外,该研究还进行了图像超分辨率实验,发现其生成的图像比之前的最优模型更能欺骗人类观察者。

🎯

关键要点

  • 该研究使用Transformer模型架构,限制自我关注机制在局部邻域。

  • 模型显著提高了处理大图像的能力。

  • 在图像生成方面,该模型优于当前最优秀的状态。

  • 在ImageNet上,负对数似然从3.83提高到3.77。

  • 进行了图像超分辨率实验,生成的图像更能欺骗人类观察者。

➡️

继续阅读