小红花·文摘

研究提出了一种新的视觉语言框架CPVLF，用于探索LVLM在伪装目标检测中的泛化能力。通过观察LVLM的泛化过程，发现其会错误感知伪装场景中的物体，并表现出一定的不确定性。因此，提出了一种链式视觉感知方法，增强LVLM对伪装场景的感知能力。实验证明CPVLF在伪装目标检测任务中有效。