基于语言的视觉一致性用于零样本语义分割
原文中文,约300字,阅读约需1分钟。发表于: 。通过基于训练的视觉 - 语言模型,CLIP,使用变换器解码器将视觉特征与类别嵌入对齐,生成语义分割掩码,本研究提出一种语言驱动的视觉共识(LDVC)方法,通过利用类别嵌入作为锚点,引导视觉特征朝向类别嵌入,通过引入路由注意力来增强同一对象内的语义一致性,并配备视觉 - 语言提示策略,显著提升了未见类别的分割模型的泛化能力,实验结果在 PASCAL VOC 2012 和 COCO-Stuff...
本研究提出了一种基于视觉-语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了7.6% mIoU的提升。同时,在主流数据集上取得了76.48% mIoU的性能,超过了此前最优方法6.9% mIoU的水平。还表明该方法在领域内具有强大的泛化能力,并在当前排行榜上与最优方法并列第一。