通过对语言模型中的序列遗忘进行近似优化参数保护隐私

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为Negative Preference Optimization(NPO)的对齐方法,用于高效unlearn目标数据集。实验证明,NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡,并生成更有意义的输出。在TOFU上,NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。

🎯

关键要点

  • 大型语言模型(LLMs)在预训练过程中会记忆敏感、私人或受版权保护的数据。
  • LLM unlearning 旨在消除不需要的数据影响,同时保留模型在其他任务上的效用。
  • 本文提出了一种名为Negative Preference Optimization(NPO)的对齐方法,用于高效unlearn目标数据集。
  • NPO方法在unlearn不需要的数据和保持模型效用之间取得了更好的平衡。
  • 基于NPO的方法在合成数据和TOFU数据集上的实验结果显示出更有意义的输出。
  • 在TOFU上,NPO方法在忘记50%或更多训练数据方面取得了合理的unlearning结果。
  • 现有的方法在忘记10%的训练数据方面已经存在困难。
➡️

继续阅读