Exploring Open Vocabulary Object Detection with Multimodal Contextual Knowledge
原文约100字/词,阅读约需1分钟。发表于: 。该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
该论文介绍了一种利用语言提示增强物体检测的方法,通过将bounding box annotations与语言提示结合,将语言知识注入到检测模型中,并生成hard negatives以提升检测性能。该方法在MS-COCO和OpenImages数据集上取得了最新的领先水平。