小红花·文摘

我们提出了一种新颖的框架，camo-perceptive 视觉语言框架（CPVLF），以探索 LVLM 在伪装目标检测中的泛化能力。通过观察 LVLM 的泛化过程，我们发现其在伪装场景中准确定位物体方面存在不确定性。因此，我们提出了一种链式视觉感知方法，从语言和视觉角度增强 LVLM 对伪装场景的感知，并提高其准确定位伪装物体的能力。实验证明 CPVLF 在伪装目标检测任务中有效。

通过无分类器引导在大型视觉语言模型中减轻物体幻觉

BriefGPT - AI 论文速递 ·

多模态深度学习在医学影像诊断领域取得进展，但准确定位疾病仍是挑战。研究提出一种新方法，利用文本报告和胸部X射线图像进行对比学习，有效定位病灶。

病变定位的多模态自监督学习

BriefGPT - AI 论文速递 ·