【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
本文提出了“RED QUEEN 攻击”,一种通过多轮对话隐蔽恶意意图的越狱攻击方法,揭示了大语言模型(LLM)在复杂对话中的安全漏洞。研究表明,攻击成功率与模型大小相关,GPT-4的成功率高达87.62%。为应对该攻击,提出了“RED QUEEN GUARD”防护策略,成功将攻击率降低至1%以下,同时保持模型性能。
🎯
关键要点
- 提出了RED QUEEN攻击,通过多轮对话隐蔽恶意意图的越狱攻击方法。
- 研究表明,攻击成功率与模型大小相关,GPT-4的成功率高达87.62%。
- RED QUEEN攻击利用伪装善意请求的方式,隐藏恶意意图,绕过模型的安全防护。
- 创建了包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。
- 提出了RED QUEEN GUARD防护策略,通过对抗性训练将攻击成功率降低至1%以下。
- 实验结果显示,模型越大越容易受到RED QUEEN攻击的影响,尤其是在复杂对话中。
- 随着对话轮次的增加,攻击成功率显著上升,不同场景对成功率也有影响。
- RED QUEEN GUARD防护策略有效提升了模型的安全性,保持了通用性能。
🏷️
标签
➡️