流形上的最速下降:6. Muon + 双旋转
📝
内容提要
我们知道,用Adam、Muon等优化器更新矩阵参数时,奇异值和左右奇异向量都会随之变化,它们通常都是耦合在一起。也正是因为这种耦合性,我们无法简单地调控矩阵参数的奇异值,因此在奇异值出现异常增长...
➡️
我们知道,用Adam、Muon等优化器更新矩阵参数时,奇异值和左右奇异向量都会随之变化,它们通常都是耦合在一起。也正是因为这种耦合性,我们无法简单地调控矩阵参数的奇异值,因此在奇异值出现异常增长...