基于视觉和文本先验的蒙版组装用于少样本分割及更多应用

通过集成 CLIP 模型，我们提出了一种视觉和文本先验引导的掩膜组装网络 (PGMA-Net)，以解决现有基于 CLIP 的少样本分割方法对基准类别的偏见预测问题，并取得了最新的研究成果。

本文介绍了一种用于任意描述的显式开放分类的Panoptic分割方法。首先建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于Transformer的方法MaskCLIP，使用ViT-CLIP骨架和掩模查询来执行语义和物体实例分割。在ADE20K和PASCAL数据集上取得了令人鼓舞的结果，并展示了MaskCLIP的定制类别的定性说明。