为什么官方版Muon比MuP版多出一个max(1, ⋅)?

📝

内容提要

在文章《Muon优化器指南:快速上手与关键细节》中,我们罗列了Muon的几个版本,它们的区别是学习率的矩阵形状相关的缩放因子不同,其中“官方版(KellerJordan版)”只比“MuP版”多出...

➡️

继续阅读