大型语言模型的提示模糊化
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究人员引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中,成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性,对语言模型的安全性发展具有重要意义。
🎯
关键要点
- 大型语言模型(LLMs)在Web应用程序中越来越多地被集成,并进行对齐训练。
- LLMs存在生成恶意内容的风险,如仇恨言论和犯罪活动。
- 引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中进行攻击。
- CIA技术使模型无法识别潜在的恶意意图,成功率达到95%以上。
- 实现了两种变换方法:T-CIA和W-CIA,自动伪装恶意指令。
- 对GPT-4、ChatGPT和ChatGLM2进行了CIA评估,攻击成功率在不同数据集上分别为83%+和91%+。
- 研究揭示了LLMs对组合指令攻击的脆弱性,对LLM安全性的发展具有重要意义。
➡️