流形上的最速下降:2. Muon + 正交
💡
原文中文,约10600字,阅读约需26分钟。
📝
内容提要
本文探讨了Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。
🎯
关键要点
- 本文探讨Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降。
- 引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。
- 优化器的核心差异在于施加的不同约束,谱范数更适合用作矩阵的稳定性度量。
- 在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。
- 正交约束分为两种情况:一是$n=m$,二是$n>m$,后者称为半正交矩阵。
- 正交约束在分类问题和LoRA场景下有应用,可以降低冗余。
- 最终更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - hetaoldsymbol{O}) ext{和}oldsymbol{W} ext{保持正交性}。
❓
延伸问答
Muon优化器的构建过程是怎样的?
Muon优化器的构建过程首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。
为什么选择谱范数作为优化器的约束?
谱范数是揭示线性层变化的最紧凑的范数,更适合用作矩阵的稳定性度量,因此选择谱范数作为优化器的约束。
正交约束在什么场景下会被使用?
正交约束常用于分类问题和LoRA场景,可以降低冗余,尤其是在已知各个类别之间没有相关性时。
在谱范数约束下,最速下降的方向是什么?
在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。
如何保持参数的正交性?
通过引入正交约束$oldsymbol{W}^{ op}oldsymbol{W}=oldsymbol{I}$,并在更新过程中保持这一约束,可以确保参数的正交性。
Muon优化器的更新规则是什么?
Muon优化器的更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - heta oldsymbol{O})$,并保持正交性。
➡️