小红花·文摘

本研究提出了ADV-LLM框架，旨在增强大型语言模型的越狱能力。该方法通过迭代自我调优，显著降低了生成对抗后缀的计算成本，并在多种开源LLM上实现了近100%的攻击成功率，展示了其在安全对齐研究中的重要性。