利用基于 CLIP 的多模态方法进行艺术品分类与检索
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文提出了一种名为CLIP Surgery的方法,可以提升多模态视觉模型CLIP的解释性和性能,而不降低性能。该方法在NUS-Wide多标签识别上获得了4.41%的平均精度提升,在Cityscapes开放词汇语义分割任务上的mIoU也超过了现有方法的8.74%。
🎯
关键要点
-
CLIP是一种强大的多模态视觉模型。
-
提出了一种名为CLIP Surgery的方法。
-
CLIP Surgery可以提升CLIP的解释性和性能。
-
该方法在NUS-Wide多标签识别上获得了4.41%的平均精度提升。
-
在Cityscapes开放词汇语义分割任务上,mIoU超过了现有方法的8.74%。
➡️