小红花·文摘

本研究提出MBTSAD方法，旨在解决语言模型在后门攻击下的脆弱性。该方法通过少量干净数据重训练后门模型，并利用注意力蒸馏进行优化，实验证明其效果与依赖预训练权重的方法相当，同时在干净数据上保持了良好性能，具有更高的实用性。