电子科技大学 | 针对自定义LLM的指令后门攻击

💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

文章探讨了自定义大语言模型(LLMs)面临的指令后门攻击,尽管用户可通过自然语言创建模型,但安全隐患依然存在。研究表明,攻击者可通过隐蔽指令和特定触发条件操控模型输出。攻击方式包括词级、语法级和语义级,实验结果显示,强大的LLM更易受到攻击,且攻击对正常推理影响较小,强调了自定义应用的潜在风险。

🎯

关键要点

  • 自定义大语言模型(LLMs)面临指令后门攻击的安全隐患。
  • 攻击者可通过隐蔽指令和特定触发条件操控模型输出。
  • 攻击方式包括词级、语法级和语义级,强大的LLM更易受到攻击。
  • 自定义LLM允许用户通过自然语言提示创建模型,但存在安全盲区。
  • 后门攻击通过操纵提示植入自定义LLM,无需对后端进行微调。
  • 攻击者的目标是生成特定触发输入时激活的后门指令。
  • 实验使用了多个文本分类数据集,评估了不同LLM的攻击性能。
  • 词级别攻击对准确率影响小,但攻击成功率高。
  • 语法级和语义级攻击也表现出良好的攻击性能,且对正常推理影响小。
  • 更强大的LLM可能更容易受到指令后门攻击,强调了定制应用的潜在风险。
  • 消融研究探讨了触发器长度、位置等因素对攻击性能的影响。

延伸问答

自定义大语言模型(LLMs)面临哪些安全隐患?

自定义LLMs面临指令后门攻击的安全隐患,攻击者可以通过隐蔽指令操控模型输出。

指令后门攻击的主要攻击方式有哪些?

指令后门攻击主要包括词级、语法级和语义级三种方式。

强大的LLM为何更容易受到指令后门攻击?

强大的LLM由于增强的指令跟随能力,更容易受到指令后门攻击。

后门攻击如何影响模型的正常推理?

后门攻击对正常推理的影响较小,攻击成功率高,但准确率变化不大。

实验中使用了哪些文本分类数据集?

实验使用了SST-2、SMS、AGNews、DBPedia和Amazon等多个文本分类数据集。

触发器的长度和位置对攻击性能有何影响?

触发器的长度和位置会影响攻击性能,较长的触发器并不总是提升效果,位置在句尾时攻击成功率更高。

➡️

继续阅读