HijackRAG:针对检索增强大语言模型的劫持攻击
原文中文,约300字,阅读约需1分钟。发表于: 。本研究揭示了一种新的安全漏洞,称为检索提示劫持攻击(HijackRAG),其允许攻击者通过向知识数据库注入恶意文本来操控检索增强生成(RAG)系统,从而生成错误答案而非正确答案。我们提出了针对不同攻击者知识水平的黑箱和白箱攻击策略,并通过大量实验表明,HijackRAG在多种基准数据集上成功率较高,且跨不同检索模型可转移,凸显了其对RAG系统的广泛风险。
本研究揭示了一种新漏洞“检索提示劫持攻击”(HijackRAG),攻击者通过注入恶意文本操控RAG系统,导致生成错误答案。研究提出了黑箱和白箱攻击策略,显示该攻击在多种数据集上成功率高,风险广泛。