ConSept:基于适配器的视觉 Transformer 的持续语义分割

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了SegVit模型,使用Vision Transformers进行语义分割,包括Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术。实验证明,使用ATM模块的SegVit模型在ADE20K数据集上优于常规ViT骨干网络的SegVit模型,并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的最佳性能。

🎯

关键要点

  • 本文介绍了SegVit模型,使用Vision Transformers进行语义分割。
  • 提出了Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术。
  • 这些技术用于构建Shrunk结构以减小计算量。
  • 实验证明,使用ATM模块的SegVit模型在ADE20K数据集上表现优于常规ViT骨干网络的SegVit模型。
  • 在COCO-Stuff-10K和PASCAL-Context数据集上,SegVit模型达到了新的最佳性能。
➡️

继续阅读