TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

在这篇论文中，我们提出了一种新颖的可转移后门攻击，TransTroj，以同时实现功能保持、持久性和任务不可知性，将预训练模型（PTMs）中的后门注入到下游模型中，并通过优化触发器和受害 PTMs 来实现嵌入空间中的嵌入不可辨别性。实验结果表明，TransTroj 在各种系统设置下显著优于其他同类攻击，并在四个 PTMs 和六个下游任务上表现出优异的性能。

本文研究了参数高效微调（PEFT）机制在特洛伊攻击中的脆弱性。通过新的攻击方式PETA，即使在使用无污染数据对被植入后门的预训练语言模型（PLM）进行PEFT后，攻击仍然有效。研究还提出了一种简单的防御方法，即省略PEFT并解冻被植入后门的PLM的选定层，能够有效中和PETA。

PETA 参数高效微调特洛伊攻击脆弱性预训练语言模型