基于检索增强的开放词汇物体检测
原文中文,约400字,阅读约需1分钟。发表于: 。使用提取与负词汇的语义相似度和从大型语言模型中取得的概念进行视觉特征增益,通过 Retrieval-Augmented Losses and visual Features (RALF) 方法,成功改进了基于 Vision-Language Models (VLMs) 的开放性词汇目标检测技术,取得了在 COCO 和 LVIS 基准数据集上的显著改进。
本文提出了一种增量的视觉-语言物体检测(IVLOD)学习任务,通过ZiRa方法逐步调整预训练的VLODMs以适应不同的专用领域。实验结果表明,ZiRa能够有效保护VLODMs的泛化能力,并持续适应新任务。