揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

研究团队揭示了大模型的“伪遗忘”现象,指出真正的遗忘需要在多个网络层发生结构性变化。通过表示空间分析,区分可逆与不可逆遗忘,强调仅在输出层“忘记”并不等于真正遗忘。研究表明,持续遗忘风险高,且可控遗忘设计可提高模型稳定性。

🎯

关键要点

  • 研究团队揭示了大模型的“伪遗忘”现象。
  • 真正的遗忘需要在多个网络层发生结构性变化。
  • 通过表示空间分析,区分可逆与不可逆遗忘。
  • 仅在输出层“忘记”并不等于真正遗忘。
  • 持续遗忘风险高,单次遗忘多数可恢复。
  • GA/RLabel方法易导致过度遗忘,GA+KL、NPO类方法能提高稳定性。
  • 不可逆遗忘伴随PCA主方向旋转和分布漂移。
  • Relearning后模型对遗忘集的表现可能优于原始状态。
  • 结构诊断工具支持可控遗忘设计,奠定安全遗忘机制基础。

延伸问答

什么是大模型的“伪遗忘”现象?

大模型的“伪遗忘”是指模型在输出层进行轻微更新时,虽然表现下降,但内部结构未发生实质性变化,仍可恢复原样。

真正的遗忘需要哪些条件?

真正的遗忘需要在多个网络层发生协同且大幅度的结构性变化。

如何区分可逆与不可逆遗忘?

可逆遗忘表现为在Relearning后能恢复原始主方向,而不可逆遗忘则伴随表示漂移和结构退化,难以恢复。

持续遗忘的风险是什么?

持续遗忘的风险高于单次遗忘,可能导致模型彻底崩溃,尤其是使用GA/RLabel等方法时。

研究中使用了哪些方法来分析遗忘现象?

研究中使用了PCA相似性分析、CKA相似性分析和Fisher信息矩阵等方法来分析遗忘现象。

可控遗忘设计的基础是什么?

可控遗忘设计的基础是结构诊断工具,如PCA、CKA和FIM,这些工具可以定位模型的破坏位置。

➡️

继续阅读