基于语义增强的少样本检测,突破新类别偏见 | ICIP'24 - 晓飞的算法工程笔记

💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

本文介绍了一种基于微调的Few-shot目标检测(FSOD)框架,解决了在极低标注情况下的新颖类别偏见表示和分类混淆问题。该框架利用语义嵌入提高检测性能,引入多模态特征融合增强视觉-语言通信,并提出语义感知最大间隔损失避免类别混淆。实验结果显示,该方法在PASCAL VOC和MS COCO数据集上性能显著提升。

🎯

关键要点

  • Few-shot目标检测(FSOD)旨在在有限标注实例的情况下检测新颖对象。

  • 现有方法在极低标注情况下存在偏见表示和分类混淆问题。

  • 提出了一种基于微调的FSOD框架,利用语义嵌入提高检测性能。

  • 框架中引入了多模态特征融合,增强视觉-语言通信。

  • 提出了语义感知最大间隔损失,避免类别混淆。

  • 实验结果表明,该方法在PASCAL VOC和MS COCO数据集上性能显著提升。

  • FSOD的挑战在于新颖类别和基础类别之间的混淆。

  • 论文的方法通过语义相似分类器和多模态特征融合来提高新颖类别的泛化能力。

  • 语义相似度分类器使用固定的语义嵌入进行识别,克服了特征分布偏见。

  • 多模态特征融合模块促进了视觉和文本特征之间的知识传播。

  • 语义感知最大间隔损失通过自适应边界避免了类别混淆。

  • 论文的贡献包括设计了三个新模块:SSC、MFF和SAM损失,提供无偏表示并增加类间分离。

➡️

继续阅读