量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

研究表明,量化技术可以使大模型在遗忘特定知识后重新恢复这些知识。宾夕法尼亚州立大学、哈佛大学和亚马逊的研究发现,4-bit量化会导致被遗忘的知识重新显现。为了解决这一问题,提出了SURE框架,通过显著性图指导遗忘过程,以优化模型效用与遗忘性能的平衡。

🎯

关键要点

  • 量化技术可以使大模型在遗忘特定知识后重新恢复这些知识。
  • 4-bit量化会导致被遗忘的知识重新显现,研究显示量化后的模型权重可能与原始模型权重相同。
  • 研究提出SURE框架,通过显著性图指导遗忘过程,以优化模型效用与遗忘性能的平衡。
  • 现有反学习方法包括梯度上升和负向偏好优化,通常会采用较小的学习率以保持模型性能。
  • 实验结果显示,经过4-bit量化后,遗忘知识的恢复比例从21%上升到83%。
  • 量化精度对遗忘效果有显著影响,8-bit量化的影响相对较小,而4-bit量化下遗忘性能显著恶化。
  • 研究人员分析了不同量化技术对遗忘的影响,发现现有反学习法导致模型权重变化小,容易映射到相同的离散值。
  • SURE框架通过选择性使用较大的学习率来指导遗忘过程,有效防止量化后知识恢复。

延伸问答

量化技术如何影响大模型的知识遗忘?

量化技术可以使大模型在遗忘特定知识后重新恢复这些知识,尤其是4-bit量化会导致被遗忘的知识重新显现。

SURE框架的作用是什么?

SURE框架通过显著性图指导遗忘过程,优化模型效用与遗忘性能的平衡,防止量化后知识恢复。

4-bit量化与8-bit量化的效果有什么不同?

4-bit量化会显著恶化遗忘性能,导致被遗忘知识的恢复比例从21%上升到83%,而8-bit量化的影响相对较小。

现有的反学习方法有哪些?

现有的反学习方法包括梯度上升(GA)和负向偏好优化(NPO),通常采用较小的学习率以保持模型性能。

量化过程中可能丢失了什么信息?

在量化过程中,模型参数的微小变化可能导致原始模型权重与量化后模型权重相同,可能使得某些知识未真正丢失,只是被隐藏。

研究人员如何评估反学习方法的效果?

研究人员通过在NEWS和BOOKS等基准数据集上使用逐字记忆、知识记忆、隐私泄露和保留集效用等四个评估指标来评估反学习方法的效果。

➡️

继续阅读