为什么官方版Muon比MuP版多出一个max(1, ⋅)?
📝
内容提要
在文章《Muon优化器指南:快速上手与关键细节》中,我们罗列了Muon的几个版本,它们的区别是学习率的矩阵形状相关的缩放因子不同,其中“官方版(KellerJordan版)”只比“MuP版”多出...
➡️
在文章《Muon优化器指南:快速上手与关键细节》中,我们罗列了Muon的几个版本,它们的区别是学习率的矩阵形状相关的缩放因子不同,其中“官方版(KellerJordan版)”只比“MuP版”多出...