TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文研究了参数高效微调(PEFT)机制在特洛伊攻击中的脆弱性。通过新的攻击方式PETA,即使在使用无污染数据对被植入后门的预训练语言模型(PLM)进行PEFT后,攻击仍然有效。研究还提出了一种简单的防御方法,即省略PEFT并解冻被植入后门的PLM的选定层,能够有效中和PETA。

🎯

关键要点

  • 参数高效微调 (PEFT) 机制使预训练语言模型 (PLMs) 能够适应特定任务,但其安全风险尚未充分探索。

  • 研究揭示 PEFT 对特洛伊攻击存在独特的脆弱性。

  • 提出了一种新颖的攻击方式 PETA,能够在使用无污染数据进行 PEFT 后仍然有效。

  • PETA 在攻击成功率和未受影响的纯净准确性方面表现出有效性。

  • 双层优化使后门和 PEFT 模块“正交化”,在 PEFT 过程中保留了后门。

  • 提出了一种简单的防御方法:省略 PEFT 并解冻被植入后门的 PLM 的选定层,能够有效中和 PETA。

➡️

继续阅读