本研究提出了CachePrune防御机制,以应对大型语言模型在间接提示注入攻击中的脆弱性。该方法通过识别和修剪任务触发神经元,显著降低攻击成功率,同时保持响应质量,为构建更安全的人工智能系统提供支持。
完成下面两步后,将自动完成登录并继续当前操作。