晓飞的算法工程笔记 ·

CPRFL：基于CLIP的新方案，破解长尾多标签分类难题 | ACM MM'24 - 晓飞的算法工程笔记

💡 原文中文，约7600字，阅读约需18分钟。

📝

内容提要

介绍了一种名为CPRFL的新方法，用于长尾多标签图像分类。该方法利用预训练的CLIP模型提取类别语义，并通过与视觉特征的交互解耦类别特定的视觉表示。实验结果显示，该方法在长尾多标签图像分类任务上具有显著优势。

🎯

❓

CPRFL方法的主要目标是解决长尾多标签图像分类（LTMLC）中的不平衡问题，提升尾部类别的识别性能。

CPRFL利用预训练的CLIP模型提取类别语义，并通过与视觉特征的交互来解耦类别特定的视觉表示。

CPRFL方法采用了非对称损失作为优化目标，以抑制负样本并提升头部到尾部的识别性能。

CPRFL方法在COCO-LT和VOC-LT数据集上的实验结果显示其在长尾多标签图像分类任务上具有显著优势。

CPRFL方法的核心机制是渐进式双路径反向传播，通过逐步将上下文相关的视觉信息纳入提示来精炼类别提示。

CPRFL通过引入重加权策略和非对称损失来有效抑制负样本，从而改善多类别中的识别性能。

🏷️