【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

本文提出了“RED QUEEN 攻击”,一种通过多轮对话隐蔽恶意意图的越狱攻击方法,揭示了大语言模型(LLM)在复杂对话中的安全漏洞。研究表明,攻击成功率与模型大小相关,GPT-4的成功率高达87.62%。为应对该攻击,提出了“RED QUEEN GUARD”防护策略,成功将攻击率降低至1%以下,同时保持模型性能。

🎯

关键要点

  • 提出了RED QUEEN攻击,通过多轮对话隐蔽恶意意图的越狱攻击方法。
  • 研究表明,攻击成功率与模型大小相关,GPT-4的成功率高达87.62%。
  • RED QUEEN攻击利用伪装善意请求的方式,隐藏恶意意图,绕过模型的安全防护。
  • 创建了包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。
  • 提出了RED QUEEN GUARD防护策略,通过对抗性训练将攻击成功率降低至1%以下。
  • 实验结果显示,模型越大越容易受到RED QUEEN攻击的影响,尤其是在复杂对话中。
  • 随着对话轮次的增加,攻击成功率显著上升,不同场景对成功率也有影响。
  • RED QUEEN GUARD防护策略有效提升了模型的安全性,保持了通用性能。
➡️

继续阅读