CLIP与DINO的结合:使用无标签图像集合调整零样本分类器

📝

内容提要

本研究针对CLIP在细粒度任务中的视觉特征不足问题,提出了一种无标签提示调整方法,利用自监督学习模型DINO的丰富视觉特征和大型语言模型的广泛文本知识,显著提升了基于CLIP的图像分类性能。研究结果表明,提出的NoLA框架在11个多样化的图像分类数据集上,相较于当前最先进的无标签分类方法LaFter平均提升3.6%。

🏷️

标签

➡️

继续阅读