BriefGPT - AI 论文速递 ·

HiT-SR：高效图像超分辨率的层次 Transformer

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

本文介绍了多种基于Transformer的图像超分辨率模型，如Hybrid Attention Transformer、Swin Transformer和S2R。这些模型通过结合不同的注意力机制和预训练策略，显著提升了超分辨率性能，实验结果在多个基准测试中优于现有方法。

🎯

关键要点

提出了一种新型的 Hybrid Attention Transformer 模型，通过融合通道注意力和基于窗口的自注意机制，提升了图片超分辨率性能，实验证明优于现有方法超过 1dB。
介绍了 RS-Win 和 IR-Win 两种新的注意力机制，增强了分层视觉 Transformer 的全局建模能力，提高了自我注意模块对图像重要区域的关注能力。
提出了 Swin Transformer，作为计算机视觉领域的通用骨干，具有强大的能力，层次设计和移位窗口方法对多层感知器架构有益。
提出了基于 MaxViT 的单图像超分辨率模型 MaxSR，通过自适应块关注和自适应网格关注实现更好的全局自相似性建模，取得了最先进性能。
提出了压缩图像超分辨率模型 HST，通过与不同的预训练任务合作，在 AIM2022 挑战赛中取得了优异结果，验证了模型的有效性。
提出了 ITSRN 网络，针对面向屏幕内容的超分辨率问题，通过调整像素查询坐标和隐式位置编码方案实现高质量的连续超分辨率。
提出了双赢框架 S2R，包含轻量级的 S2R transformer 和新颖的自上而下的训练策略，在理想和随机模糊条件下实现出色的视觉结果。
通过引入自适应记号字典到 SR Transformer，建立 ATD-SR 方法，提升输入特征，在多个基准测试中达到最佳性能。
提出 CFAT 模型，结合三角-矩形窗口和基于通道的全局注意力技术，显著提升超分辨率性能，实验证明相较于其他架构有 0.7 dB 的性能提升。

❓

延伸问答

Hybrid Attention Transformer 模型的主要优势是什么？

Hybrid Attention Transformer 模型通过融合通道注意力和基于窗口的自注意机制，提升了图片超分辨率性能，实验证明优于现有方法超过 1dB。

Swin Transformer 在计算机视觉中的应用是什么？

Swin Transformer 作为通用骨干，具有强大的能力，适用于图像分类和目标检测等任务。

ITSRN 网络是如何解决超分辨率问题的？

ITSRN 网络通过调整像素查询坐标和隐式位置编码方案，实现高质量的连续超分辨率，实验表明其在处理压缩和非压缩 SCI 方面优于其他方法。

CFAT 模型的创新点是什么？

CFAT 模型结合了三角-矩形窗口和基于通道的全局注意力技术，能够激活更多图像像素的注意机制，从而提高超分辨率性能。

HST 模型在 AIM2022 挑战赛中的表现如何？

HST 模型在 AIM2022 挑战赛中取得了排名第五的优异结果，PSNR 达到 23.51dB，验证了模型的有效性。

S2R 框架的主要特点是什么？

S2R 框架包含轻量级的 S2R transformer 和新颖的自上而下的训练策略，能够在理想和随机模糊条件下实现出色的视觉结果。

🏷️