小红花·文摘

大型语言模型在Web应用中可能生成恶意内容。本文介绍了一种组合指令攻击（CIA）技术，通过将恶意提示隐藏在无害指令中，使模型难以识别。T-CIA和W-CIA方法将恶意指令伪装成无害任务。对GPT-4、ChatGPT和ChatGLM2的评估显示，攻击成功率超过95%，揭示了模型在识别恶意意图方面的脆弱性。