通过对语言模型中的序列遗忘进行近似优化参数保护隐私

我们提出了一种名为 “POP” 的新型遗忘方法，通过对参数应用最佳梯度更新，从预训练的语言模型中有效地遗忘目标令牌序列，实现隐私保护，具有出色的遗忘后保留性能，优于现有技术水平。

本文介绍了一种名为Negative Preference Optimization（NPO）的对齐方法，用于高效unlearn目标数据集。实验证明，NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡，并生成更有意义的输出。在TOFU上，NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。

Negative Preference Optimization TOFU unlearn 数据集模型效用语言模型