蝴蝶分解优化的参数高效正交微调
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
参数高效微调(PEFT)易受特洛伊攻击,研究提出新攻击方式PETA,即使无污染数据也有效。实证解释了攻击原理,并探索了防御方法。
🎯
关键要点
- 参数高效微调 (PEFT) 机制能够有效适应预训练语言模型 (PLMs) 到特定任务。
- PEFT 的安全风险尚未被充分探索,存在对特洛伊攻击的独特脆弱性。
- 提出了一种新攻击方式 PETA,能够在各种下游任务中有效攻击,即使使用无污染数据。
- PETA 的攻击成功率高,且未受影响的纯净准确性也表现良好。
- 双层优化机制使得后门和 PEFT 模块在本质上“正交化”,保留了后门。
- 探索了一种防御方法,通过省略被植入后门的 PLM 的选定层的 PEFT,有效中和 PETA。
➡️