大型语言模型在Web应用中可能生成恶意内容。本文介绍了一种组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害指令中,使模型难以识别。T-CIA和W-CIA方法将恶意指令伪装成无害任务。对GPT-4、ChatGPT和ChatGLM2的评估显示,攻击成功率超过95%,揭示了模型在识别恶意意图方面的脆弱性。
研究人员引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中,成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性,对语言模型的安全性发展具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。