大规模语言模型应用的词汇攻击

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文揭示了攻击者使用视觉对抗样本来影响与大型语言模型连接的用户资源的机密性和完整性的能力。研究发现,这些攻击可以以接近真实语法的方式操控语言模型调用工具,并保持与原始图像的高相似度。这些攻击对用户与语言模型之间的对话没有显著影响。

🎯

关键要点

  • 攻击者可以使用视觉对抗样本影响大型语言模型的工具使用能力。
  • 这些攻击影响与大型语言模型连接的用户资源的机密性和完整性。
  • 攻击保持隐秘性,并可泛化到多个输入提示。
  • 对抗图像能够以接近真实语法的方式操控大型语言模型,准确率约为98%。
  • 对抗图像与原始图像的相似度高,约为0.9 SSIM。
  • 这些攻击对用户与大型语言模型之间的对话及其语义没有显著影响。
➡️

继续阅读