小红花·文摘

本研究提出了一种新方法，通过图像补丁攻击视觉语言预训练模型，保持文本完整性，并用扩散模型增强扰动真实性。实验显示，该方法在图像对文本攻击中成功率达100%，在文本对图像任务中效果显著。