SGD在Transformers上表现不如Adam,因为参数块之间的Hessian频谱差异巨大,称为“块异质性”。SGD对具有块异质性的问题表现不佳,因为它对所有块应用相同的学习率,无法处理块之间的异质性。如果能为不同的块分配不同的学习率,就能挽救SGD的失败。
完成下面两步后,将自动完成登录并继续当前操作。