CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种零样本开放词汇语义分割方法,无需任何注释,通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征,从而显著提升 MaskCLIP 的性能并产生平滑的输出。
CLIP(对比性语言-图像预训练)是一种多模态视觉模型,通过CLIP Surgery方法提升了解释性和性能,在开放词汇任务中取得了显著提高。
我们提出了一种零样本开放词汇语义分割方法,无需任何注释,通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征,从而显著提升 MaskCLIP 的性能并产生平滑的输出。
CLIP(对比性语言-图像预训练)是一种多模态视觉模型,通过CLIP Surgery方法提升了解释性和性能,在开放词汇任务中取得了显著提高。