HarmAug:安全守护模型知识蒸馏的有效数据增强
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对安全守护模型在移动设备上部署时面临的内存和延迟问题,提出了一种新的数据增强方法HarmAug。该方法通过生成有害指令来丰富训练数据,从而使小型模型在性能上接近大型模型。研究表明,采用HarmAug训练的模型在F1分数和AUPRC上均优于较大的模型,同时计算成本仅为其25%。
大型语言模型在Web应用中可能生成恶意内容。本文介绍了一种组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害指令中,使模型难以识别。T-CIA和W-CIA方法将恶意指令伪装成无害任务。对GPT-4、ChatGPT和ChatGLM2的评估显示,攻击成功率超过95%,揭示了模型在识别恶意意图方面的脆弱性。