💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

为防止大型语言模型(LLMs)执行恶意指令,CyberArk的Niv Rabin提出需将所有输入视为不可信,直到验证。团队开发了基于指令检测和历史验证的多层防御机制,以确保模型仅处理经过验证的数据。

🎯

关键要点

  • 为防止大型语言模型(LLMs)执行恶意指令,所有输入必须视为不可信,直到验证。
  • CyberArk团队开发了基于指令检测和历史验证的多层防御机制。
  • 防御机制包括蜜罐行为和指令检测器,确保模型仅处理经过验证的数据。
  • 蜜罐行为作为恶意意图的“陷阱”,用于捕捉可疑行为的提示。
  • 指令检测器用于审查所有外部数据,识别任何形式的指令。
  • 历史中部分恶意指令的片段可能会组合成完整指令,称为历史中毒。
  • 为防止历史中毒,所有历史API响应与新数据一起提交给指令检测器。
  • 如果任何阶段标记出问题,请求将在模型看到潜在有害内容之前被阻止。
  • 这种方法有效保护LLMs,将其视为长期、多轮的工作流。