Instruct2Attack: 语言引导的语义对抗攻击
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 Instruct2Attack(I2A),一种基于语言引导的语义攻击,根据自由形式的语言指令生成语义上有意义的扰动。我们利用最先进的潜态扩散模型,通过对逆扩散过程进行对抗性引导,寻找输入图像和文本指令条件下的对抗性潜态编码。与基于噪声和语义的现有攻击相比,I2A 生成更自然和多样的对抗性样本,同时提供更好的可控性和可解释性。我们还利用 GPT-4...
研究人员提出了一种名为Instruct2Attack(I2A)的基于语言引导的语义攻击方法,利用潜态扩散模型生成对抗性潜态编码,生成更自然和多样的对抗性样本。通过GPT-4自动化攻击过程,生成多样的图像特定文本指令。研究表明,I2A能够成功破解深度神经网络,并具有强大的迁移能力。