长尾多标签图像分类的类别提示精炼特征学习
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对长尾多标签图像分类中的数据不平衡和多对象识别问题,提出了一种新颖的类别提示精炼特征学习方法(CPRFL)。该方法通过利用不同类别之间的语义关联和解耦类别特征表示,显著提高了模型对长尾类别的识别能力,实验验证了该方法在相关基准测试中的优越性。
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉-语言模型(VLM)如CLIP适应多标签分类。通过考虑多标签依赖性,提出了一种层次化的提示学习方法。实验证明该方法在多个数据集上取得了更好的结果。