HijackRAG:针对检索增强大语言模型的劫持攻击
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究揭示了一种新漏洞“检索提示劫持攻击”(HijackRAG),攻击者通过注入恶意文本操控RAG系统,导致生成错误答案。研究提出了黑箱和白箱攻击策略,显示该攻击在多种数据集上成功率高,风险广泛。
🎯
关键要点
- 本研究揭示了一种新漏洞,称为检索提示劫持攻击(HijackRAG)。
- 攻击者通过向知识数据库注入恶意文本来操控RAG系统。
- 该攻击导致生成错误答案而非正确答案。
- 研究提出了黑箱和白箱攻击策略,适应不同攻击者的知识水平。
- 大量实验表明,HijackRAG在多种基准数据集上成功率较高。
- 该攻击具有跨不同检索模型的转移性,显示出对RAG系统的广泛风险。
➡️