小红花·文摘

研究发现Vision Transformers（ViTs）中存在量化伪像，提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征，捕捉到更多的局部细粒度结构。在不同任务中，SRT都能提高模型性能。此外，SRT还适用于非密集预测任务，产生了一致的改进效果。