在广义少样本语义分割中应用ViT
原文中文,约400字,阅读约需1分钟。发表于: 。本文研究了基于ViT的模型在广义少样本语义分割(GFSS)框架下的能力。通过多种骨干网络的组合,发现DINOv2与线性分类器结合的结构在PASCAL-$5^i$基准测试中表现优异,大幅超越ResNet结构,展示了大型预训练ViT模型在GFSS任务中的巨大潜力。
本研究提出了一种在少样本情况下改进普适少样本分割任务的方法,通过学习视觉提示对多尺度Transformer解码器进行提示,实现准确的密集预测。引入单向因果关注机制提升新提示质量,无需测试时间优化或传导即可在基准数据集上实现最先进性能。