在广义少样本语义分割中应用ViT

本文研究了基于ViT的模型在广义少样本语义分割(GFSS)框架下的能力。通过多种骨干网络的组合，发现DINOv2与线性分类器结合的结构在PASCAL-$5^i$基准测试中表现优异，大幅超越ResNet结构，展示了大型预训练ViT模型在GFSS任务中的巨大潜力。

本研究提出了一种在少样本情况下改进普适少样本分割任务的方法，通过学习视觉提示对多尺度Transformer解码器进行提示，实现准确的密集预测。引入单向因果关注机制提升新提示质量，无需测试时间优化或传导即可在基准数据集上实现最先进性能。