OVMR是一种用于开放词汇识别的方法,通过将文本描述和示例图像输入到视觉-语言模型中,生成多模态分类器。它使用无参数融合模块来自适应地融合单模态和多模态分类器。实验结果表明,OVMR在图像分类和目标检测任务中表现优于其他方法。
本文通过引用由文本描述和示例图像组成的多模式线索,以不同的角度解决开放词汇识别问题,并提出了一种名为 OVMR 的方法,该方法采用两个创新组件来追求更强的类别线索嵌入。
完成下面两步后,将自动完成登录并继续当前操作。