【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
原文中文,约3000字,阅读约需8分钟。发表于: 。本文提出了一种新的越狱攻击方法“RED QUEEN 攻击”,这种方法通过构建多轮次对话场景,将恶意意图隐蔽在看似为保护安全的请求之下。
本文提出了“RED QUEEN 攻击”,一种通过多轮对话隐蔽恶意意图的越狱攻击方法,揭示了大语言模型(LLM)在复杂对话中的安全漏洞。研究表明,攻击成功率与模型大小相关,GPT-4的成功率高达87.62%。为应对该攻击,提出了“RED QUEEN GUARD”防护策略,成功将攻击率降低至1%以下,同时保持模型性能。