小红花·文摘

本文介绍了热身-稳定-衰减（WSD）学习率调度方法，解决语言模型训练中预算预设的问题。WSD通过高学习率和快速衰减优化模型，允许无限迭代，表现出非传统损失曲线。研究表明，WSD-S在不同预算下优于其他方法。