研究提出了一种新的视觉语言框架CPVLF,用于探索LVLM在伪装目标检测中的泛化能力。通过观察LVLM的泛化过程,发现其会错误感知伪装场景中的物体,并表现出一定的不确定性。因此,提出了一种链式视觉感知方法,增强LVLM对伪装场景的感知能力。实验证明CPVLF在伪装目标检测任务中有效。
完成下面两步后,将自动完成登录并继续当前操作。