小红花·文摘

本文探讨了针对大型语言模型（LLMs）的攻击方法及防护措施，提出了多种自动生成的对抗性提示和攻击框架，显示出高攻击成功率，揭示了LLMs的安全隐患。实验结果表明，通过自卫框架训练可显著减少不安全内容的生成，强调了对更全面安全保护的需求。