视觉语言对象检测的零样本可迁移增量学习
原文中文,约500字,阅读约需2分钟。发表于: 。本文提出了一种增量的视觉 - 语言物体检测(IVLOD)学习任务,旨在在保持泛化能力的同时,逐步调整预训练的视觉 - 语言物体检测模型(VLODMs)以适应不同的专用领域。为了解决这一新挑战,我们提出了一种称为 Zero-interference Reparameterizable Adaptation(ZiRa)的新方法,该方法引入了零干扰损失和参数重参数化技术来处理...
本文提出了一种增量的视觉-语言物体检测(IVLOD)学习任务,通过ZiRa方法能够保持泛化能力并适应不同的专用领域。实验结果表明,ZiRa在ODinW-13数据集上的性能优于CL-DETR和iDETR,分别提高了13.91和8.71个AP的零泛化能力。