流形上的最速下降:2. Muon + 正交

💡 原文中文,约10600字,阅读约需26分钟。
📝

内容提要

本文探讨了Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

🎯

关键要点

  • 本文探讨Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降。
  • 引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。
  • 优化器的核心差异在于施加的不同约束,谱范数更适合用作矩阵的稳定性度量。
  • 在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。
  • 正交约束分为两种情况:一是$n=m$,二是$n>m$,后者称为半正交矩阵。
  • 正交约束在分类问题和LoRA场景下有应用,可以降低冗余。
  • 最终更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - hetaoldsymbol{O}) ext{和}oldsymbol{W} ext{保持正交性}。

延伸问答

Muon优化器的构建过程是怎样的?

Muon优化器的构建过程首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

为什么选择谱范数作为优化器的约束?

谱范数是揭示线性层变化的最紧凑的范数,更适合用作矩阵的稳定性度量,因此选择谱范数作为优化器的约束。

正交约束在什么场景下会被使用?

正交约束常用于分类问题和LoRA场景,可以降低冗余,尤其是在已知各个类别之间没有相关性时。

在谱范数约束下,最速下降的方向是什么?

在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。

如何保持参数的正交性?

通过引入正交约束$oldsymbol{W}^{ op}oldsymbol{W}=oldsymbol{I}$,并在更新过程中保持这一约束,可以确保参数的正交性。

Muon优化器的更新规则是什么?

Muon优化器的更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - heta oldsymbol{O})$,并保持正交性。

➡️

继续阅读