小红花·文摘

本文介绍了SegVit模型，使用Vision Transformers进行语义分割，包括Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术。实验证明，使用ATM模块的SegVit模型在ADE20K数据集上优于常规ViT骨干网络的SegVit模型，并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的最佳性能。