CLIPSelf:视觉 Transformer 用于开放词汇密集预测的自我精简
原文中文,约300字,阅读约需1分钟。发表于: 。该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
该论文提出了CLIP Surgery方法,提升了CLIP模型的解释性和性能,且在多个任务中获得了显着提高,如在NUS-Wide多标签识别上得到了4.41%的平均精度提升,在Cityscapes开放词汇语义分割任务上的mIoU也超过了现有方法的8.74%。