SCLIP:为密集视觉语言推理重新思考自注意力
原文中文,约200字,阅读约需1分钟。发表于: 。通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
介绍了CLIP-DIY的开放词汇语义分割方法,利用无监督目标定位方法和CLIP的分类能力,在PASCAL VOC和COCO上取得了良好结果。
通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
介绍了CLIP-DIY的开放词汇语义分割方法,利用无监督目标定位方法和CLIP的分类能力,在PASCAL VOC和COCO上取得了良好结果。