小红花·文摘

研究探讨机器学习模型在消除有害知识方面的不足，质疑遗忘与安全培训的区别。通过对抗视角发现，现有的jailbreak方法在特定条件下仍有效，多种自适应方法表明多数被认为遗忘的能力可恢复，挑战了当前遗忘方法的稳健性。