本研究提出MBTSAD方法,旨在解决语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练后门模型,并利用注意力蒸馏进行优化,实验证明其效果与依赖预训练权重的方法相当,同时在干净数据上保持了良好性能,具有更高的实用性。
完成下面两步后,将自动完成登录并继续当前操作。