小红花·文摘

本文探讨了大型语言模型（LLMs）面临的越狱攻击及其防御方法，提出了PAIR算法和ReNeLLM框架以提高攻击成功率并降低时间成本。同时介绍了SELFDEFEND防御框架，有效降低攻击成功率。研究揭示了当前防御的不足，并提出改进措施以增强LLMs的安全性。