LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

💡 原文中文,约8800字,阅读约需21分钟。
📝

内容提要

现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测,但存在概念表示不足和过拟合问题。为此,提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。实验显示,该方法在不依赖外部资源的情况下显著提升了泛化能力。

🎯

关键要点

  • 现有方法利用视觉-语言模型(VLMs)增强开放词汇目标检测,但面临概念表示不足和过拟合问题。
  • 提出LaMI策略,通过语言模型指令改善概念表示,避免过拟合。
  • LaMI-DETR结合GPT和T5构建视觉概念,提升检测性能。
  • 实验显示该方法在不依赖外部资源的情况下显著提升了泛化能力。
  • 开放词汇目标检测(OVOD)旨在识别和定位广泛类别的物体,包括基础类别和新类别。
  • 现有方法主要集中在检测器内部复杂模块的开发,存在概念表示和过拟合问题。
  • 概念表示不足导致无法有效捕捉类别之间的文本和视觉语义相似性。
  • 对基础类别的过拟合使得新对象容易被视为背景或基础类别。
  • LaMI-DETR通过语言模型提取类别间关系,改善概念表示,减少过拟合。
  • 采用Instructor Embedding和GPT生成视觉描述,提升类别相似性评估。
  • 通过聚类视觉描述嵌入,识别与真实类别视觉上不同的负类,增强模型泛化能力。
  • LaMI-DETR框架在OV-LVIS和VG-dedup基准上表现优越,分别提升了7.8 AP和2.9 AP。
  • 与其他开放词汇检测方法相比,LaMI-DETR简化了推理过程,减少了对基础类别的过拟合。
  • 通过视觉描述和类间关系提取,LaMI-DETR改善了开放词汇检测器的性能。
➡️

继续阅读