暗无天日 ·

读：为什么所有 Prompt Injection 防御都会被攻破——以及架构上该怎么办

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

文章讨论了Prompt Injection防御的不足，指出外围防御无法有效阻止攻击。建议从架构层面重新设计，采用Capability Gate限制模型权限，并通过隔离LLM处理外部内容。同时，审计日志记录每次操作以确保安全性。最终目标是管理攻击风险，而非完全防止。

🎯

🔎

文章指出，传统的外围防御措施如输入过滤和黑名单在面对Prompt Injection攻击时效果有限。攻击者可以通过不断试探和变换策略轻易绕过这些防御。因此，依赖外围防御来保护系统的安全性是不够的，必须从架构层面进行根本性改进。

引入Capability Gate的设计理念，可以有效限制模型的权限，确保其无法自行决定执行哪些操作。这种方法不仅提高了系统的安全性，还能防止恶意指令的执行。通过将权限管理与模型操作分离，能够在一定程度上降低Prompt Injection攻击的风险。

文章强调了审计日志在安全管理中的重要性。每次工具调用都应记录详细信息，以便在发生攻击时能够追溯和分析。这种透明性不仅有助于及时发现问题，还能为后续的安全改进提供数据支持。

❓

外围防御方法如输入过滤和黑名单容易被绕过，攻击者可以利用不同的策略来规避这些防御措施。

Capability Gate是一种机制，限制模型的权限，确保模型不能自行决定执行哪些操作，从而防止恶意指令的执行。

可以通过使用隔离的LLM实例处理外部内容，确保主模型不直接接触原始文档，从而降低被注入的风险。

审计日志记录每次工具调用的详细信息，确保操作的透明性和可追溯性，有助于在攻击发生后分析问题。

优先级应从缩减模型权限开始，进行参数schema验证，隔离外部文档处理，并部署签名的审计日志。

根本原因在于当前的LLM架构无法区分指令和数据，导致恶意文本和系统提示被视为相同。

🏷️