弱到强的后门攻击:基于对比知识蒸馏的LLM攻击研究
原文中文,约500字,阅读约需1分钟。发表于: 。该研究解决了大规模语言模型后门攻击的有效性和效率问题,尤其是在参数高效微调的背景下。通过提出一种基于对比知识蒸馏的弱到强后门攻击算法(W2SAttack),研究表明可通过小规模模型毒化和知识迁移来增强攻击效果。实验结果显示,在四种语言模型、四种后门攻击算法和两种不同的教师模型架构下,W2SAttack在针对参数高效微调的后门攻击中取得了接近100%的成功率。
研究发现,参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。即使微调后,预定义触发器仍可被利用。为此,研究者开发了基于PEFT的有毒样本识别模块(PSIM),通过置信度识别有毒样本,有效防御攻击。实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。