MBTSAD:基于标记拆分和注意力蒸馏减少语言模型中的后门攻击
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出MBTSAD方法,以应对语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练模型,并利用注意力蒸馏技术实现后门削减,效果与依赖预训练权重的方法相当,同时在干净数据上保持良好性能。
🎯
关键要点
- 本研究提出MBTSAD方法,解决语言模型在后门攻击下的脆弱性。
- MBTSAD方法利用少量干净数据重训练模型。
- 该方法应用注意力蒸馏技术实现后门削减。
- MBTSAD在后门削减效果上与依赖预训练权重的方法相当。
- 在干净数据上,MBTSAD方法保持了良好的性能。
- 该方法在无预训练权重的情况下具有更高的实用性。
➡️