量子位 ·

揭开大模型“伪遗忘”，港理工等团队：结构不变就是没忘

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

研究团队揭示了大模型的“伪遗忘”现象，指出真正的遗忘需要在多个网络层发生结构性变化。通过表示空间分析，区分可逆与不可逆遗忘，强调仅在输出层“忘记”并不等于真正遗忘。研究表明，持续遗忘风险高，且可控遗忘设计可提高模型稳定性。

🎯

🔎

研究表明，伪遗忘现象可能导致模型在处理敏感信息时的隐私风险加大。仅在输出层进行遗忘并不能真正消除模型对特定知识的记忆，反而可能在某些情况下使模型的表现不稳定。因此，开发更为有效的遗忘机制显得尤为重要。

文章强调了可控遗忘设计的重要性，利用PCA、CKA和FIM等工具可以有效诊断模型的遗忘状态。这种设计不仅能提高模型的稳定性，还能确保在遗忘过程中不损害模型的整体性能，为未来的机器学习应用提供了安全保障。

研究发现，重学习后模型在某些情况下对遗忘集的表现甚至优于原始状态，这提示我们遗忘可能具有隐式的增强效果。这一发现为机器学习中的正则化和课程学习提供了新的视角，值得进一步探索。

❓

大模型的“伪遗忘”是指模型在输出层进行轻微更新时，虽然表现下降，但内部结构未发生实质性变化，仍可恢复原样。

真正的遗忘需要在多个网络层发生协同且大幅度的结构性变化。

可逆遗忘表现为在Relearning后能恢复原始主方向，而不可逆遗忘则伴随表示漂移和结构退化，难以恢复。

持续遗忘的风险高于单次遗忘，可能导致模型彻底崩溃，尤其是使用GA/RLabel等方法时。

研究中使用了PCA相似性分析、CKA相似性分析和Fisher信息矩阵等方法来分析遗忘现象。

可控遗忘设计的基础是结构诊断工具，如PCA、CKA和FIM，这些工具可以定位模型的破坏位置。

🏷️