USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架,提出了安全前端、结构化指令微调和安全对齐三种策略,有效降低攻击成功率,确保LLM应用系统安全。

🎯

关键要点

  • AIxiv专栏介绍了一种针对LLM提示词注入攻击的防御框架。
  • 提出了安全前端、结构化指令微调和安全对齐三种策略。
  • 这些策略有效降低了提示词注入攻击的成功率,确保LLM应用系统安全。
  • 提示词注入攻击被OWASP列为对LLM应用系统的最大威胁。
  • 攻击者可以在第三方数据中注入指令,覆盖LLM应用的原指令。
  • 第一个原因是LLM输入中没有分离指令和数据,提出安全前端作为解决方案。
  • 第二个原因是LLM训练中模型被教导遵循任意指令,提出结构化指令微调和安全对齐作为解决方案。
  • 安全前端使用分隔符分离指令和数据,确保数据部分不被攻击者利用。
  • 结构化指令微调通过模拟攻击教导模型忽视注入指令。
  • 安全对齐通过构建偏好数据集来优化模型的输出。
  • StruQ和SecAlign是两种防御策略,分别结合了不同的防御方法。
  • StruQ模型实现了<2%的攻击成功率,SecAlign实现了0%的攻击成功率。
  • 对于优化的提示词注入攻击,SecAlign将成功率降低到15%以下。
➡️

继续阅读