科学空间|Scientific Spaces ·

流形上的最速下降：2. Muon + 正交

💡 原文中文，约10600字，阅读约需26分钟。

📝

内容提要

本文探讨了Muon优化器的构建，首先在谱范数约束下进行矩阵参数的最速下降，然后引入正交约束以保持参数为正交矩阵，最终得出适用于正交性优化场景的更新规则。

🎯

本文探讨Muon优化器的构建，首先在谱范数约束下进行矩阵参数的最速下降。
引入正交约束以保持参数为正交矩阵，最终得出适用于正交性优化场景的更新规则。
优化器的核心差异在于施加的不同约束，谱范数更适合用作矩阵的稳定性度量。
在谱范数约束下，下降最快的方向是$- ext{msign}(oldsymbol{G})$，而不是梯度的反方向。
正交约束分为两种情况：一是$n=m$，二是$n>m$，后者称为半正交矩阵。
正交约束在分类问题和LoRA场景下有应用，可以降低冗余。
最终更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - hetaoldsymbol{O}) ext{和}oldsymbol{W} ext{保持正交性}。

🔎

在优化过程中，选择谱范数作为约束能够更好地反映矩阵的稳定性。这种选择使得优化器在处理矩阵参数时，能够有效捕捉到线性层的变化特性，从而提升优化效果。相比于传统的F范数，谱范数提供了更紧凑的度量，适合用于复杂的矩阵优化场景。

正交约束在分类问题和LoRA场景中具有重要应用。通过施加正交约束，可以有效降低模型参数的冗余，提升模型的表达能力。在实际应用中，虽然常通过正则项实现近似正交，但直接引入正交约束能够更精确地控制参数的结构，尤其在类别之间相关性较低的情况下。

本文提出的更新规则在保持正交性的同时，考虑了谱范数约束的影响。这种复杂的更新机制虽然能在理论上保证参数的正交性，但在实际计算中可能增加了运算负担。因此，在实现时需要权衡计算效率与优化效果，确保在实际应用中能够达到预期的性能。

❓

Muon优化器的构建过程首先在谱范数约束下进行矩阵参数的最速下降，然后引入正交约束以保持参数为正交矩阵，最终得出适用于正交性优化场景的更新规则。

谱范数是揭示线性层变化的最紧凑的范数，更适合用作矩阵的稳定性度量，因此选择谱范数作为优化器的约束。

正交约束常用于分类问题和LoRA场景，可以降低冗余，尤其是在已知各个类别之间没有相关性时。

在谱范数约束下，下降最快的方向是$- ext{msign}(oldsymbol{G})$，而不是梯度的反方向。

通过引入正交约束$oldsymbol{W}^{ op}oldsymbol{W}=oldsymbol{I}$，并在更新过程中保持这一约束，可以确保参数的正交性。

Muon优化器的更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - heta oldsymbol{O})$，并保持正交性。

🏷️