本研究提出了一种新方法,通过图像补丁攻击视觉语言预训练模型,保持文本完整性,并用扩散模型增强扰动真实性。实验显示,该方法在图像对文本攻击中成功率达100%,在文本对图像任务中效果显著。
完成下面两步后,将自动完成登录并继续当前操作。