揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
研究团队揭示了大模型的“伪遗忘”现象,指出真正的遗忘需要在多个网络层发生结构性变化。通过表示空间分析,区分可逆与不可逆遗忘,强调仅在输出层“忘记”并不等于真正遗忘。研究表明,持续遗忘风险高,且可控遗忘设计可提高模型稳定性。
🎯
关键要点
- 研究团队揭示了大模型的“伪遗忘”现象。
- 真正的遗忘需要在多个网络层发生结构性变化。
- 通过表示空间分析,区分可逆与不可逆遗忘。
- 仅在输出层“忘记”并不等于真正遗忘。
- 持续遗忘风险高,单次遗忘多数可恢复。
- GA/RLabel方法易导致过度遗忘,GA+KL、NPO类方法能提高稳定性。
- 不可逆遗忘伴随PCA主方向旋转和分布漂移。
- Relearning后模型对遗忘集的表现可能优于原始状态。
- 结构诊断工具支持可控遗忘设计,奠定安全遗忘机制基础。
❓
延伸问答
什么是大模型的“伪遗忘”现象?
大模型的“伪遗忘”是指模型在输出层进行轻微更新时,虽然表现下降,但内部结构未发生实质性变化,仍可恢复原样。
真正的遗忘需要哪些条件?
真正的遗忘需要在多个网络层发生协同且大幅度的结构性变化。
如何区分可逆与不可逆遗忘?
可逆遗忘表现为在Relearning后能恢复原始主方向,而不可逆遗忘则伴随表示漂移和结构退化,难以恢复。
持续遗忘的风险是什么?
持续遗忘的风险高于单次遗忘,可能导致模型彻底崩溃,尤其是使用GA/RLabel等方法时。
研究中使用了哪些方法来分析遗忘现象?
研究中使用了PCA相似性分析、CKA相似性分析和Fisher信息矩阵等方法来分析遗忘现象。
可控遗忘设计的基础是什么?
可控遗忘设计的基础是结构诊断工具,如PCA、CKA和FIM,这些工具可以定位模型的破坏位置。
➡️