本文介绍了一种零样本物体检测方法,通过融合语义属性和视觉特征,提高了未知对象的检测精度。研究提出了多种技术和数据集,以应对对象属性预测的挑战,并在多个基准上取得显著改进。此外,探索了基于语言描述和图像样例的多模态分类器,显示出优于传统方法的性能。
OVMR是一种用于开放词汇识别的方法,通过将文本描述和示例图像输入到视觉-语言模型中,生成多模态分类器。它使用无参数融合模块来自适应地融合单模态和多模态分类器。实验结果表明,OVMR在图像分类和目标检测任务中表现优于其他方法。
完成下面两步后,将自动完成登录并继续当前操作。