InstructTA:针对大型视觉语言模型的指导式目标攻击

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种以指令为导向的有针对性攻击方法,通过将目标响应转化为目标图像,并从目标响应推断出合理的指令。该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征,并优化对抗示例以最小化这两个特征之间的距离,从而提高攻击性能和可迁移性。

🎯

关键要点

  • 提出了一种以指令为导向的有针对性攻击方法。
  • 通过将目标响应转化为目标图像,并推断出合理的指令。
  • 利用共享相同视觉编码器的本地替代模型提取特征。
  • 提取对抗示例和目标图像的指令感知特征。
  • 优化对抗示例以最小化特征之间的距离。
  • 提高攻击性能和可迁移性。
➡️

继续阅读