研究提出了一种新的视觉语言框架CPVLF,用于探索LVLM在伪装目标检测中的泛化能力。通过观察LVLM的泛化过程,发现其会错误感知伪装场景中的物体,并表现出一定的不确定性。因此,提出了一种链式视觉感知方法,增强LVLM对伪装场景的感知能力。实验证明CPVLF在伪装目标检测任务中有效。
本文提出了一种基于统一类别原型导向的视觉语言框架,用于解决数据不平衡引起的特征空间偏差和分类器的正向偏差问题。通过去除无关噪声文本和增强关键属性信息的模块,提高了模型的鲁棒性。实验证明,该方法在长尾学习中表现出更优越的性能。
完成下面两步后,将自动完成登录并继续当前操作。