Spectro-ViT:使用频谱图的 GABA 编辑 MRS 重建的视觉 Transformer 模型

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

研究发现Vision Transformers(ViTs)中存在量化伪像,提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构。在不同任务中,SRT都能提高模型性能。此外,SRT还适用于非密集预测任务,产生了一致的改进效果。

🎯

关键要点

  • 研究发现Vision Transformers(ViTs)中存在量化伪像,源于图像令牌化步骤。
  • 提出了一种零样本方法SRT,旨在改善预训练ViTs处理空间量化的方式。
  • SRT通过子标记空间平移扰动输入图像获得特征集合,有效超分辨率预训练ViTs的特征。
  • SRT能够捕捉更多局部细粒度结构,这些结构在令牌化过程中可能被忽视。
  • SRT适用于任何层和任务,无需微调,特别在单目深度预测中表现明显。
  • 在三种不同架构上,SRT在RMSE和RMSE-log指标上分别提高了4.7%和14.9%。
  • 在半监督视频目标分割中,SRT平均提高了2.4%的F&J分数。
  • SRT在无监督显著区域分割上平均提高了2.1%的maxF指标。
  • 尽管SRT基于像素级特征操作,但也适用于非密集预测任务,如图像检索和目标发现,分别提高了2.6%和1.0%。
➡️

继续阅读