小红花·文摘

本文研究了视觉语言预训练模型（VLP）的对抗性，提出了集合级引导攻击（SGA）和协作多模态对抗攻击（Co-Attack）等新型攻击方法，显著提高了攻击成功率。实验结果表明，模态交互在增强对抗鲁棒性方面至关重要，揭示了VLP模型的脆弱性及其在实际应用中的安全隐患。

关于单模型和视觉语言预训练模型之间对抗漏洞的统一理解

BriefGPT - AI 论文速递 ·

本文研究了利用大规模图像-文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像-标签对为图像-文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL和TCL，来学习医学图像和报告的研究级特征。该模型在相同条件下优于现有的最先进模型。

CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

BriefGPT - AI 论文速递 ·