MBTSAD:基于标记拆分和注意力蒸馏减少语言模型中的后门攻击

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出MBTSAD方法,以应对语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练模型,并利用注意力蒸馏技术实现后门削减,效果与依赖预训练权重的方法相当,同时在干净数据上保持良好性能。

🎯

关键要点

  • 本研究提出MBTSAD方法,解决语言模型在后门攻击下的脆弱性。
  • MBTSAD方法利用少量干净数据重训练模型。
  • 该方法应用注意力蒸馏技术实现后门削减。
  • MBTSAD在后门削减效果上与依赖预训练权重的方法相当。
  • 在干净数据上,MBTSAD方法保持了良好的性能。
  • 该方法在无预训练权重的情况下具有更高的实用性。
➡️

继续阅读