大型语言模型的提示模糊化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究人员引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中,成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性,对语言模型的安全性发展具有重要意义。

🎯

关键要点

  • 大型语言模型(LLMs)在Web应用程序中越来越多地被集成,并进行对齐训练。
  • LLMs存在生成恶意内容的风险,如仇恨言论和犯罪活动。
  • 引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中进行攻击。
  • CIA技术使模型无法识别潜在的恶意意图,成功率达到95%以上。
  • 实现了两种变换方法:T-CIA和W-CIA,自动伪装恶意指令。
  • 对GPT-4、ChatGPT和ChatGLM2进行了CIA评估,攻击成功率在不同数据集上分别为83%+和91%+。
  • 研究揭示了LLMs对组合指令攻击的脆弱性,对LLM安全性的发展具有重要意义。
➡️

继续阅读