蝴蝶分解优化的参数高效正交微调

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

参数高效微调(PEFT)易受特洛伊攻击,研究提出新攻击方式PETA,即使无污染数据也有效。实证解释了攻击原理,并探索了防御方法。

🎯

关键要点

  • 参数高效微调 (PEFT) 机制能够有效适应预训练语言模型 (PLMs) 到特定任务。
  • PEFT 的安全风险尚未被充分探索,存在对特洛伊攻击的独特脆弱性。
  • 提出了一种新攻击方式 PETA,能够在各种下游任务中有效攻击,即使使用无污染数据。
  • PETA 的攻击成功率高,且未受影响的纯净准确性也表现良好。
  • 双层优化机制使得后门和 PEFT 模块在本质上“正交化”,保留了后门。
  • 探索了一种防御方法,通过省略被植入后门的 PLM 的选定层的 PEFT,有效中和 PETA。
➡️

继续阅读