本研究提出MBTSAD方法,以应对语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练模型,并利用注意力蒸馏技术实现后门削减,效果与依赖预训练权重的方法相当,同时在干净数据上保持良好性能。
完成下面两步后,将自动完成登录并继续当前操作。