长尾多标签图像分类的类别提示精炼特征学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉-语言模型(VLM)如CLIP适应多标签分类。通过考虑多标签依赖性,提出了一种层次化的提示学习方法。实验证明该方法在多个数据集上取得了更好的结果。

🎯

关键要点

  • 提出了一种无需训练数据的多标签图像识别新框架。
  • 利用预训练大型语言模型(LLM)的知识学习提示,使视觉-语言模型(VLM)如CLIP适应多标签分类。
  • 通过向LLM提问获取关于对象的特性和背景的综合知识,为学习提示提供文本描述。
  • 提出了一种层次化的提示学习方法,考虑多标签依赖性,共享特定类别提示标记的子集。
  • CLIP在视觉和语义上具有显著的对准性,层次化提示被应用于图像分类的推理过程。
  • 框架为探索多个预训练模型之间的协同作用提供新途径。
  • 在三个公共数据集上进行的实验证明该方法优于现有方法,特别是在MS-COCO上的零样本多标签识别方法的mAP上超过4.7%。
➡️

继续阅读