使用二进制球面量化对图像和视频进行令牌化

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

研究人员提出了一种名为“随机共振变压器”(SRT)的零样本方法,通过子标记空间平移扰动输入图像,改善了Vision Transformers(ViTs)中的量化伪像问题。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构,并在多个任务上展现改进效果,无需微调。

🎯

关键要点

  • 研究人员发现 Vision Transformers(ViTs)中存在量化伪像,源于图像令牌化步骤。
  • 提出了一种名为“随机共振变压器”(SRT)的零样本方法,旨在改善预训练 ViTs 处理空间量化的方式。
  • SRT 通过子标记空间平移扰动输入图像,捕捉更多局部细粒度结构,提升特征超分辨率。
  • SRT 可应用于任何层和任务,无需微调,特别在单目深度预测中效果显著。
  • 在三种不同架构上,SRT 在 RMSE 和 RMSE-log 指标上分别提高了 4.7% 和 14.9%。
  • 在半监督视频目标分割中,SRT 平均提高了 2.4% 的 F&J 分数。
  • SRT 在无监督显著区域分割上平均提高了 2.1% 的 maxF 指标。
  • 尽管 SRT 基于像素级特征操作,但也适用于图像检索和目标发现等非密集预测任务,分别提高了 2.6% 和 1.0%。
➡️

继续阅读