长尾多标签图像分类的类别提示精炼特征学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉-语言模型(VLM)如CLIP适应多标签分类。通过考虑多标签依赖性,提出了一种层次化的提示学习方法。实验证明该方法在多个数据集上取得了更好的结果。
🎯
关键要点
- 提出了一种无需训练数据的多标签图像识别新框架。
- 利用预训练大型语言模型(LLM)的知识学习提示,使视觉-语言模型(VLM)如CLIP适应多标签分类。
- 通过向LLM提问获取关于对象的特性和背景的综合知识,为学习提示提供文本描述。
- 提出了一种层次化的提示学习方法,考虑多标签依赖性,共享特定类别提示标记的子集。
- CLIP在视觉和语义上具有显著的对准性,层次化提示被应用于图像分类的推理过程。
- 框架为探索多个预训练模型之间的协同作用提供新途径。
- 在三个公共数据集上进行的实验证明该方法优于现有方法,特别是在MS-COCO上的零样本多标签识别方法的mAP上超过4.7%。
➡️