LUNAR:通过神经激活重定向进行大规模语言模型的忘记

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新方法LUNAR,旨在降低大规模语言模型训练中的隐私泄露风险。该方法通过重定向未学习数据的表示,显著提升模型的可控性和遗忘效果,测试显示性能提升可达11.7倍。

🎯

关键要点

  • 本研究提出了一种新方法LUNAR,旨在降低大规模语言模型训练中的隐私泄露风险。
  • LUNAR方法通过重定向未学习数据的表示,显著提升模型的可控性和遗忘效果。
  • 测试结果显示,LUNAR在多种基础模型上实现了高达11.7倍的性能提升。
  • 该方法具有良好的针对真实场景的适应性和鲁棒性。
➡️

继续阅读