腾讯安全玄武实验室 ·

玄武在BlackHat揭示劫持智能体达成RCE的新方法

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

大语言模型（LLM）正逐渐演变为智能体，提示词注入攻击的威胁加剧。研究提出了一种通用触发器，攻击者可通过简单方法控制模型输出，攻击成功率高达70%。这一新攻击模式可能带来系统性风险，亟需加强防护措施。

🎯

🔎

随着大语言模型演变为智能体，提示词注入攻击的风险显著增加。这种攻击不仅限于信息层面的误导，可能导致实际的系统控制和数据泄露，用户在使用智能体时需提高警惕，确保其操作的安全性。

通用触发器的出现降低了攻击的门槛，使得即使是缺乏经验的攻击者也能实施有效的攻击。这一变化意味着更多潜在的威胁行为者可能利用这一技术，企业和开发者需加强防护措施，防止被利用。

面对新型的提示词注入攻击，企业应采取多层次的防护策略，如沙箱隔离和输入检测。这些措施能够有效降低智能体被攻击的风险，确保系统的安全性和稳定性。

❓

通用触发器是一种优化的特殊Token序列，攻击者可以通过它精确控制大语言模型的输出，降低攻击门槛，攻击成功率可达70%。

提示词注入攻击从早期的用户输入诱导演变为通过污染数据源进行更大范围的攻击，尤其是在智能体时代，攻击的危害显著增加。

通用触发器的攻击成功率约为70%，在同一模型族内有一定的迁移能力，但跨模型族则不可迁移。

防护措施包括沙箱隔离、输入检测、最小权限原则以及安全白名单与人工审核，以减少攻击风险。

通用触发器将攻击过程解耦为可复用的触发器和可定制的载荷，打破了传统攻击对具体上下文的依赖。

智能体时代的提示词注入攻击可能导致植入后门代码、窃取隐私数据，甚至完全控制用户计算机系统。

🏷️