大型语言模型在Web应用中可能生成恶意内容。本文介绍了一种组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害指令中,使模型难以识别。T-CIA和W-CIA方法将恶意指令伪装成无害任务。对GPT-4、ChatGPT和ChatGLM2的评估显示,攻击成功率超过95%,揭示了模型在识别恶意意图方面的脆弱性。
完成下面两步后,将自动完成登录并继续当前操作。