MBTSAD: Mitigating Backdoor Attacks in Language Models Based on Token Splitting and Attention Distillation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出MBTSAD方法,旨在解决语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练后门模型,并利用注意力蒸馏进行优化,实验证明其效果与依赖预训练权重的方法相当,同时在干净数据上保持了良好性能,具有更高的实用性。
🎯
关键要点
- MBTSAD方法旨在解决语言模型在后门攻击下的脆弱性,尤其是在没有预训练权重的情况下。
- 该方法通过少量干净数据重训练后门模型,并应用注意力蒸馏进行优化。
- 实验证明MBTSAD在后门削减方面的效果与依赖预训练权重的方法相当。
- MBTSAD在干净数据上保持了良好性能,具有更高的实用性。
➡️