晓飞的算法工程笔记 ·

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24 - 晓飞的算法工程笔记

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

现有方法使用视觉-语言模型如CLIP来增强开放词汇目标检测，但存在概念表示不足和过拟合问题。为此，提出LaMI策略，通过语言模型指令改善概念表示，避免过拟合。LaMI-DETR结合GPT和T5构建视觉概念，提升检测性能。实验显示，该方法在不依赖外部资源的情况下显著提升了泛化能力。

🎯

🔎

开放词汇目标检测（OVOD）面临的主要挑战包括概念表示不足和对基础类别的过拟合。现有方法往往无法有效捕捉类别之间的视觉和文本语义相似性，导致新对象被错误分类为背景或基础类别。LaMI-DETR通过语言模型指令改善了这一问题，提升了模型的泛化能力。

LaMI-DETR结合了GPT和T5，通过提取类别间的关系和生成视觉描述来优化概念表示。这种方法不仅减少了对基础类别的过拟合，还增强了模型对新类别的识别能力。与其他方法相比，LaMI-DETR简化了推理过程，提升了检测性能。

实验表明，LaMI-DETR在OV-LVIS和VG-dedup基准上分别提升了7.8 AP和2.9 AP，显示出其在开放词汇目标检测中的优越性。这些结果强调了语言模型在改善概念表示和增强模型泛化能力方面的重要性，可能为未来的研究提供新的方向。

❓

LaMI-DETR通过结合GPT和T5，利用语言模型指令改善概念表示，减少过拟合，从而提升开放词汇目标检测的性能。

OVOD面临概念表示不足和对基础类别的过拟合问题，这导致新对象容易被错误分类。

LaMI策略通过提取类别间关系，利用语言模型生成视觉描述，从而改善概念表示。

实验显示，LaMI-DETR在OV-LVIS和VG-dedup基准上分别提升了7.8 AP和2.9 AP，显著提高了泛化能力。

LaMI-DETR简化了推理过程，减少了对基础类别的过拟合，且不依赖外部资源。

通过聚类视觉描述嵌入，识别与真实类别视觉上不同的负类，从而减轻对基础类别的过拟合。

🏷️