通过对语言模型中的序列遗忘进行近似优化参数保护隐私
本文介绍了一种名为Negative Preference Optimization(NPO)的对齐方法,用于高效unlearn目标数据集。实验证明,NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡,并生成更有意义的输出。在TOFU上,NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。
原文中文,约400字,阅读约需1分钟。
本文介绍了一种名为Negative Preference Optimization(NPO)的对齐方法,用于高效unlearn目标数据集。实验证明,NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡,并生成更有意义的输出。在TOFU上,NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。