OTSeg: 多提示 Sinkhorn 注意力用于零样本语义分割

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

SegCLIP是一种基于CLIP的模型,实现了开放式词汇语义分割。通过训练文本-图像对来聚集补丁形成语义区域,并使用重构损失和KL损失与伪标签相结合来增强视觉表征。实验结果显示,该模型在分割精度上优于基线模型。

🎯

关键要点

  • 提出了一种基于CLIP的模型,名为SegCLIP。
  • SegCLIP实现了开放式词汇语义分割,采用无注释方式。
  • 模型通过训练文本-图像对聚集补丁形成语义区域。
  • 引入重构损失和基于超像素的KL损失与伪标签结合,增强视觉表征。
  • 实验结果显示,SegCLIP在PASCAL VOC 2012、PASCAL Context和COCO数据集上分割精度优于基线模型。
➡️

继续阅读