CLIP-VIS:适应开放词汇视频实例分割
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
SegCLIP是一种基于CLIP的模型,实现了无注释的开放式词汇语义分割。通过训练文本-图像对来聚集补丁形成语义区域。实验结果表明,在PASCAL VOC 2012、PASCAL Context和COCO上,SegCLIP实现了相当或更高的分割精度。