流形上的最速下降:6. Muon + 双旋转

📝

内容提要

我们知道,用Adam、Muon等优化器更新矩阵参数时,奇异值和左右奇异向量都会随之变化,它们通常都是耦合在一起。也正是因为这种耦合性,我们无法简单地调控矩阵参数的奇异值,因此在奇异值出现异常增长...

➡️

继续阅读