通过对语言模型中的序列遗忘进行近似优化参数保护隐私
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种名为 “POP” 的新型遗忘方法,通过对参数应用最佳梯度更新,从预训练的语言模型中有效地遗忘目标令牌序列,实现隐私保护,具有出色的遗忘后保留性能,优于现有技术水平。
本文介绍了一种名为Negative Preference Optimization(NPO)的对齐方法,用于高效unlearn目标数据集。实验证明,NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡,并生成更有意义的输出。在TOFU上,NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。