为什么变形器需要 Adam:从 Hessian 的角度看
原文中文,约400字,阅读约需1分钟。发表于: 。SGD 在 Transformers 上表现明显不如 Adam,我们通过 Hessian 镜头提供了 SGD 在 Transformers 上失败的解释:(1) Transformers 是 “异质” 的:参数块之间的 Hessian 频谱差异巨大,我们称之为 “块异质性” 现象;(2) 异质性妨碍了 SGD 的表现:SGD...
SGD在Transformers上表现不如Adam,因为参数块之间的Hessian频谱差异巨大,称为“块异质性”。SGD对具有块异质性的问题表现不佳,因为它对所有块应用相同的学习率,无法处理块之间的异质性。如果能为不同的块分配不同的学习率,就能挽救SGD的失败。