小红花·文摘

本研究提出了MergeGuard方法，旨在应对机器学习中的特洛伊攻击。通过线性化和合并全连接层，提升模型的泛化能力和性能。评估结果表明，该方法在降低攻击成功率的同时，保持了模型的准确性，优于常见的防御策略。

BriefGPT - AI 论文速递 ·

本文研究了参数高效微调（PEFT）机制在特洛伊攻击中的脆弱性。通过新的攻击方式PETA，即使在使用无污染数据对被植入后门的预训练语言模型（PLM）进行PEFT后，攻击仍然有效。研究还提出了一种简单的防御方法，即省略PEFT并解冻被植入后门的PLM的选定层，能够有效中和PETA。

BriefGPT - AI 论文速递 ·

本研究探讨了自监督学习中的特洛伊攻击问题，证明 SSL 受到特洛伊攻击的攻击效果与有监督学习相当。提出并评估了 CTRL，一种简单的自监督特洛伊攻击。结果显示，SSL 开启表示不变性有助于提高对抗强度，但也使其对特洛伊攻击更脆弱。

BriefGPT - AI 论文速递 ·