AgentXploit:黑箱AI代理的端到端红队攻击
📝
内容提要
本研究解决了大型语言模型(LLM)代理系统中由间接提示注入引发的安全风险,该攻击向量通过操纵上下文信息而非直接用户提示来破坏代理的核心功能。我们提出了一种通用的黑箱模糊测试框架AgentXploit,能够自动发现和利用这些间接提示注入漏洞。该方法在两个公共基准测试中表现出色,成功率达到71%和70%,并在实际环境中验证了其对代理的误导能力。
🏷️
标签
➡️