深入剖析语言模型微调中的遗忘现象:基于示例关联的统计分析

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究旨在通过预测模型更新后被遗忘的上游示例来提高语言模型的可解释性。他们提出了一种部分可解释的预测模型,并展示了基于示例表示内积的黑盒分类器在预测性能上的优势。通过回放被预测将被遗忘的示例,他们减少了上游预训练示例的遗忘,证明了预测示例遗忘的实际应用效用。

🎯

关键要点

  • 该研究旨在提高语言模型的可解释性,特别是通过预测被遗忘的上游示例。
  • 提出了一种部分可解释的预测模型,基于预训练示例的前 softmax 对数几率分数变化与在线学习示例的相似性。
  • 该模型在 BART 模型上表现良好,但在 T5 模型上失败。
  • 展示了基于示例表示内积的黑盒分类器在多种设置中具有更好的预测性能。
  • 通过回放被预测将被遗忘的示例,减少了上游预训练示例的遗忘,证明了其实际应用效用。
➡️

继续阅读