小红花·文摘

本研究提出了一种新方法Panacea，旨在应对有害细调攻击的安全风险。该方法通过自适应扰动来恢复模型的安全性，同时保持细调性能。实验结果表明，平均有害得分降低最高可达21.5%。