为什么变形器需要 Adam:从 Hessian 的角度看

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

SGD在Transformers上表现不如Adam,因为参数块之间的Hessian频谱差异巨大,称为“块异质性”。SGD对具有块异质性的问题表现不佳,因为它对所有块应用相同的学习率,无法处理块之间的异质性。如果能为不同的块分配不同的学习率,就能挽救SGD的失败。

🎯

关键要点

  • SGD在Transformers上的表现明显不如Adam。
  • SGD失败的原因是参数块之间的Hessian频谱差异巨大,称为'块异质性'。
  • 块异质性妨碍了SGD的表现,因为SGD对所有块应用相同的学习率。
  • 在没有块异质性的问题上,SGD表现良好,但在存在异质性的问题上表现不佳。
  • 如果能够为不同的块分配不同的学习率,可以改善SGD的表现,类似于Adam的设计。
➡️

继续阅读