弱到强的后门攻击:基于对比知识蒸馏的LLM攻击研究

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

研究发现,参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。即使微调后,预定义触发器仍可被利用。为此,研究者开发了基于PEFT的有毒样本识别模块(PSIM),通过置信度识别有毒样本,有效防御攻击。实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。

🎯

关键要点

  • 参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。
  • PEFT方法只更新有限模型参数,可能构成安全漏洞。
  • 预定义触发器在微调后依然可以被滥用,保持高置信度。
  • 研究者开发了基于PEFT的有毒样本识别模块(PSIM)。
  • PSIM通过置信度识别有毒样本,有效防御权重污染后门攻击。
  • 实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。
➡️

继续阅读