研究探讨机器学习模型在消除有害知识方面的不足,质疑遗忘与安全培训的区别。通过对抗视角发现,现有的jailbreak方法在特定条件下仍有效,多种自适应方法表明多数被认为遗忘的能力可恢复,挑战了当前遗忘方法的稳健性。
完成下面两步后,将自动完成登录并继续当前操作。