本研究提出了一种新方法Panacea,旨在应对有害细调攻击的安全风险。该方法通过自适应扰动来恢复模型的安全性,同时保持细调性能。实验结果表明,平均有害得分降低最高可达21.5%。
完成下面两步后,将自动完成登录并继续当前操作。