HarmAug:安全守护模型知识蒸馏的有效数据增强

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

大型语言模型在Web应用中可能生成恶意内容。本文介绍了一种组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害指令中,使模型难以识别。T-CIA和W-CIA方法将恶意指令伪装成无害任务。对GPT-4、ChatGPT和ChatGLM2的评估显示,攻击成功率超过95%,揭示了模型在识别恶意意图方面的脆弱性。

🎯

关键要点

  • 大型语言模型(LLMs)在Web应用中可能生成恶意内容。
  • 引入了一种组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害指令中进行攻击。
  • CIA技术使模型难以识别潜在的恶意意图。
  • 实现了两种变换方法:T-CIA和W-CIA,将恶意指令伪装成无害任务。
  • 对GPT-4、ChatGPT和ChatGLM2的评估显示,攻击成功率超过95%。
  • 在安全评估数据集上,攻击成功率达到95%+,在恶意提示数据集上分别为83%+和91%+。
  • 该研究揭示了LLMs在识别潜藏恶意意图方面的脆弱性,推动了LLM安全性的发展。
➡️

继续阅读