InfoQ ·

CyberArk如何通过指令检测器和历史验证保护AI代理

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

为防止大型语言模型（LLMs）执行恶意指令，CyberArk的Niv Rabin提出需将所有输入视为不可信，直到验证。团队开发了基于指令检测和历史验证的多层防御机制，以确保模型仅处理经过验证的数据。

🎯

🔎

CyberArk团队采用多层防御机制来应对不同类型的威胁。这种设计不仅提高了系统的安全性，还减少了单一方法可能存在的盲点。通过将指令检测器与蜜罐行为结合，系统能够更有效地识别和阻止恶意指令，确保模型处理的数据经过严格验证。

历史中毒是指早期响应中的无害片段可能组合成恶意指令的现象。CyberArk通过将历史API响应与新数据一起提交给指令检测器来防止这一风险。这种方法确保了即使在对话历史中存在潜在的恶意线索，模型也不会受到影响，从而增强了整体安全性。

指令检测器在防止恶意输入方面发挥了关键作用。它不仅关注传统的恶意内容，还能识别潜在的指令意图和行为特征。这种细致的审查机制使得系统能够在数据进入模型之前，及时阻止任何可疑信息，从而有效保护大型语言模型的安全。

❓

CyberArk通过将所有输入视为不可信，开发了基于指令检测和历史验证的多层防御机制，确保模型仅处理经过验证的数据。

历史中毒是指早期的恶意指令片段组合成完整指令。CyberArk通过将所有历史API响应与新数据一起提交给指令检测器来防止历史中毒。

指令检测器用于审查所有外部数据，识别任何形式的指令，从而阻止可疑数据进入模型。

蜜罐行为作为恶意意图的“陷阱”，用于捕捉可疑行为的提示，帮助识别潜在的恶意指令。

CyberArk的防御机制被组织成多层管道，每一层旨在捕捉不同类型的威胁，减少独立方法的盲点。

通过多层防御机制，包括指令检测器和蜜罐行为，确保模型在看到潜在有害内容之前阻止任何标记出问题的请求。

🏷️