本文探讨了大型语言模型(LLM)防御的有效性,提出了一种基于信息的白箱攻击方法,通过中间模型检查点提升攻击效率。研究发现,现有的对齐防御方法存在脆弱性,需在强威胁模型下进行评估。
本研究揭示了一种新漏洞“检索提示劫持攻击”(HijackRAG),攻击者通过注入恶意文本操控RAG系统,导致生成错误答案。研究提出了黑箱和白箱攻击策略,显示该攻击在多种数据集上成功率高,风险广泛。
完成下面两步后,将自动完成登录并继续当前操作。