用 LLM 玩猜谜游戏:通过隐含暗示的间接越狱攻击
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了日常语言交互与AI安全之间的交叉点,探讨了如何说服大型语言模型进行越狱。通过社会科学研究,提出了基于说服分类的方法,并应用于自动生成的对抗提示,结果表明说服显著提高了越狱性能。同时发现现有的防御手段存在差距,呼吁减轻高交互性大型语言模型的风险。
🎯
关键要点
- 传统的 AI 安全研究主要关注算法攻击,忽视了普通用户的风险。
- 本文从人类对话者的角度探讨日常语言交互与 AI 安全的交叉点。
- 提出了基于社会科学研究的说服分类,用于说服大型语言模型进行越狱。
- 应用该分类生成可解释的说服性对抗提示(PAP),结果显示越狱性能显著提高。
- PAP 在 Llama 2-7b Chat、GPT-3.5 和 GPT-4 上的攻击成功率超过 92%。
- 现有的防御手段存在显著差距,呼吁减轻高交互性大型语言模型的风险。
➡️