去学习方法是否能够从语言模型权重中移除信息? 发表于:2024-10-11T00:00:00Z。 本研究解决了当前去学习方法无法明确移除语言模型知识的问题,提出了一种对抗性评估方法来测试信息的去除情况。研究发现,使用可访问事实进行微调可以恢复88%的去学习前准确率,这揭示了现有去学习方法在信息移除方面的局限性。 语言模型