本研究提出了MergeGuard方法,旨在应对机器学习中的特洛伊攻击。通过线性化和合并全连接层,提升模型的泛化能力和性能。评估结果表明,该方法在降低攻击成功率的同时,保持了模型的准确性,优于常见的防御策略。
本文研究了参数高效微调(PEFT)机制在特洛伊攻击中的脆弱性。通过新的攻击方式PETA,即使在使用无污染数据对被植入后门的预训练语言模型(PLM)进行PEFT后,攻击仍然有效。研究还提出了一种简单的防御方法,即省略PEFT并解冻被植入后门的PLM的选定层,能够有效中和PETA。
本研究探讨了自监督学习中的特洛伊攻击问题,证明 SSL 受到特洛伊攻击的攻击效果与有监督学习相当。提出并评估了 CTRL,一种简单的自监督特洛伊攻击。结果显示,SSL 开启表示不变性有助于提高对抗强度,但也使其对特洛伊攻击更脆弱。
完成下面两步后,将自动完成登录并继续当前操作。