大型语言模型微调遗忘的缩放律

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究发现,细调预训练语言模型存在遗忘问题,特别是带有Low-Rank Adapters的模型。遗忘量与细调参数数量和更新步数呈移位幂律增长。无法通过提前停止或调整参数数量来避免遗忘问题。这为减轻遗忘问题的细调方案提供了重要的安全关键方向。

🎯

关键要点

  • 研究发现细调预训练语言模型存在遗忘问题,尤其是带有Low-Rank Adapters的模型。
  • 遗忘量与细调参数数量和更新步数呈移位幂律增长。
  • 无法通过提前停止或调整参数数量来避免遗忘问题。
  • 研究为减轻遗忘问题的细调方案提供了重要的安全关键方向。
➡️

继续阅读