DeepMind研究人员提出针对大型语言模型提示注入的防御措施

To prevent prompt injection attacks when working with untrusted sources, Google DeepMind researchers have proposed CaMeL, a defense layer around LLMs that blocks malicious inputs by extracting the...

谷歌DeepMind研究人员提出了CaMeL,旨在防止大型语言模型的提示注入攻击。CaMeL通过提取查询的控制和数据流,中和了67%的攻击。该方法结合传统软件安全原则,使用自定义Python解释器跟踪数据来源,确保操作符合权限限制。尽管在AgentDojo基准测试中表现良好,但仍需用户定义安全策略,可能导致用户疲劳。

DeepMind研究人员提出针对大型语言模型提示注入的防御措施
原文英文,约700词,阅读约需3分钟。发表于:
阅读原文