沉浸式翻译 immersive translate

CyberArk如何通过指令检测器和历史验证保护AI代理

InfoQ ·

CyberArk如何通过指令检测器和历史验证保护AI代理

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

为防止大型语言模型（LLMs）执行恶意指令，CyberArk的Niv Rabin提出需将所有输入视为不可信，直到验证。团队开发了基于指令检测和历史验证的多层防御机制，以确保模型仅处理经过验证的数据。

🎯

关键要点

为防止大型语言模型（LLMs）执行恶意指令，所有输入必须视为不可信，直到验证。
CyberArk团队开发了基于指令检测和历史验证的多层防御机制。
防御机制包括蜜罐行为和指令检测器，确保模型仅处理经过验证的数据。
蜜罐行为作为恶意意图的“陷阱”，用于捕捉可疑行为的提示。
指令检测器用于审查所有外部数据，识别任何形式的指令。
历史中部分恶意指令的片段可能会组合成完整指令，称为历史中毒。
为防止历史中毒，所有历史API响应与新数据一起提交给指令检测器。
如果任何阶段标记出问题，请求将在模型看到潜在有害内容之前被阻止。
这种方法有效保护LLMs，将其视为长期、多轮的工作流。

🏷️

标签

ai 多层防御大型语言模型恶意指令数据安全输入验证