小红花·文摘

本研究提出了CachePrune防御机制，以应对大型语言模型在间接提示注入攻击中的脆弱性。该方法通过识别和修剪任务触发神经元，显著降低攻击成功率，同时保持响应质量，为构建更安全的人工智能系统提供支持。