PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的协调提示-RAG攻击(PR-攻击),旨在提高检索增强生成(RAG)在大型语言模型中的安全性。通过双层优化框架,PR-攻击能够引入少量被污染文本和后门触发器,生成预设响应,同时保持正常行为。实验结果表明,PR-攻击在有效性和隐蔽性上优于现有攻击方法。
🎯
关键要点
- 本研究提出了一种新的协调提示-RAG攻击(PR-攻击),旨在提高检索增强生成(RAG)在大型语言模型中的安全性。
- PR-攻击通过双层优化框架引入少量被污染文本和后门触发器,能够生成预设响应,同时保持正常行为。
- 实验结果表明,PR-攻击在有效性和隐蔽性上显著优于现有攻击方法。
➡️