为应对大型语言模型(LLM)的提示注入攻击,提出了StruQ和SecAlign两种防御机制。StruQ通过结构化指令调优,使LLM忽略注入指令;SecAlign则优化LLM对正确响应的偏好。实验结果表明,这两种方法显著降低了攻击成功率,增强了模型的安全性和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。