CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24 - 晓飞的算法工程笔记

💡 原文中文,约7600字,阅读约需18分钟。
📝

内容提要

介绍了一种名为CPRFL的新方法,用于长尾多标签图像分类。该方法利用预训练的CLIP模型提取类别语义,并通过与视觉特征的交互解耦类别特定的视觉表示。实验结果显示,该方法在长尾多标签图像分类任务上具有显著优势。

🎯

关键要点

  • 提出了一种新方法CPRFL,用于长尾多标签图像分类(LTMLC)。
  • CPRFL利用预训练的CLIP模型提取类别语义,促进头部类和尾部类之间的语义关联。
  • 设计了一种渐进式双路径反向传播机制,以精炼类别提示并改善视觉特征的质量。
  • 采用非对称损失作为优化目标,以抑制负样本并提升头部到尾部的识别性能。
  • CPRFL方法在COCO-LT和VOC-LT数据集上进行了实验,验证了其有效性和优越性。
  • CPRFL方法包括提示初始化网络和视觉-语义交互网络,利用CLIP的文本嵌入进行类别提示初始化。
  • 通过Transformer编码器实现视觉特征与类别提示的交互,解耦类别特定的视觉表示。
  • 引入非线性结构处理类别语义的投影,增强视觉-语义交互能力。
  • 采用重加权策略来解决多类别中的负样本与正样本不平衡问题。
➡️

继续阅读