基于视觉和文本先验的蒙版组装用于少样本分割及更多应用
原文中文,约200字,阅读约需1分钟。发表于: 。通过集成 CLIP 模型,我们提出了一种视觉和文本先验引导的掩膜组装网络 (PGMA-Net),以解决现有基于 CLIP 的少样本分割方法对基准类别的偏见预测问题,并取得了最新的研究成果。
本文介绍了一种用于任意描述的显式开放分类的Panoptic分割方法。首先建立了一个没有调优或蒸馏的基线方法,然后开发了一个新的基于Transformer的方法MaskCLIP,使用ViT-CLIP骨架和掩模查询来执行语义和物体实例分割。在ADE20K和PASCAL数据集上取得了令人鼓舞的结果,并展示了MaskCLIP的定制类别的定性说明。