研究发现,参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。即使微调后,预定义触发器仍可被利用。为此,研究者开发了基于PEFT的有毒样本识别模块(PSIM),通过置信度识别有毒样本,有效防御攻击。实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。
完成下面两步后,将自动完成登录并继续当前操作。