本文介绍了热身-稳定-衰减(WSD)学习率调度方法,解决语言模型训练中预算预设的问题。WSD通过高学习率和快速衰减优化模型,允许无限迭代,表现出非传统损失曲线。研究表明,WSD-S在不同预算下优于其他方法。
完成下面两步后,将自动完成登录并继续当前操作。