无需像素级监督的共同分割及其在大规模草图分类中的应用

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

我们研究了机器对手绘草图的理解,提出了一种基于CLIP模型的草图编码器。通过视觉提示微调视觉编码器,实现语义分割。设计了两级网络,第一层编码场景,第二层专注类别,并引入交叉注意机制。在FS-COCO数据集上准确率达85.5%,超过无标注CLIP。用户研究显示方法需改进。

🎯

关键要点

  • 研究机器对手绘草图的理解,提出基于CLIP模型的草图编码器。
  • 草图编码器生成语义感知特征空间,评估语义草图分割任务性能。
  • 模型训练依赖于简要标题的位图草图,无需像素级注释。
  • 建立在预先训练的CLIP模型基础上,冻结文本编码器,进行视觉提示微调。
  • 设计两级分层网络,第一级编码整体场景,第二级专注个别类别。
  • 在第二级引入文本和视觉分支之间的交叉注意机制。
  • 在FS-COCO数据集上达到85.5%的准确率,超越无标注CLIP的结果。
  • 用户研究显示方法在调和机器和人类理解方面需进一步改进。
➡️

继续阅读