本研究提出了一种新方法,通过图像补丁攻击视觉语言预训练模型,保持文本完整性,并用扩散模型增强扰动真实性。实验显示,该方法在图像对文本攻击中成功率达100%,在文本对图像任务中效果显著。
COSMO是解决视觉语言预训练中虚假负样本问题的方法,通过处理虚假负样本和采用GRIT策略转换为正样本。实验证明COSMO在多个下游任务上有效,重要性超过解决虚假正样本的重要性。与BLIP-family模型兼容。
DeViDe是一种基于Transformer的新方法,用于胸片X光的视觉语言预训练,利用放射照片描述和开放网络中的通用视觉特征,提供了对医学知识的整体快照。在零样本设置下,DeViDe在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。此外,DeViDe在下游任务和分割任务上也展示了优越的性能。
利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。
完成下面两步后,将自动完成登录并继续当前操作。