VLM-KD:基于 VLM 的长尾视觉识别知识蒸馏
📝
内容提要
本研究解决了视觉识别中知识蒸馏在长尾分类问题上的不足,通过采用现成的视觉语言模型(VLM)生成新的文本监督来改进传统的视觉教师模型。VLM-KD 框架展现了其在多个评估数据集上的优越性,超越了多种最新的长尾视觉分类器,标志着在视觉编码器中应用文本监督蒸馏的首创。
🏷️
标签
➡️