流形上的最速下降:2. Muon + 正交

💡 原文中文,约10600字,阅读约需26分钟。
📝

内容提要

本文探讨了Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

🎯

关键要点

  • 本文探讨Muon优化器的构建,首先在谱范数约束下进行矩阵参数的最速下降。

  • 引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

  • 优化器的核心差异在于施加的不同约束,谱范数更适合用作矩阵的稳定性度量。

  • 在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。

  • 正交约束分为两种情况:一是$n=m$,二是$n>m$,后者称为半正交矩阵。

  • 正交约束在分类问题和LoRA场景下有应用,可以降低冗余。

  • 最终更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - hetaoldsymbol{O}) ext{和}oldsymbol{W} ext{保持正交性}。

🔎

延伸解读

谱范数的优势

在优化过程中,选择谱范数作为约束能够更好地反映矩阵的稳定性。这种选择使得优化器在处理矩阵参数时,能够有效捕捉到线性层的变化特性,从而提升优化效果。相比于传统的F范数,谱范数提供了更紧凑的度量,适合用于复杂的矩阵优化场景。

正交约束的应用场景

正交约束在分类问题和LoRA场景中具有重要应用。通过施加正交约束,可以有效降低模型参数的冗余,提升模型的表达能力。在实际应用中,虽然常通过正则项实现近似正交,但直接引入正交约束能够更精确地控制参数的结构,尤其在类别之间相关性较低的情况下。

更新规则的复杂性

本文提出的更新规则在保持正交性的同时,考虑了谱范数约束的影响。这种复杂的更新机制虽然能在理论上保证参数的正交性,但在实际计算中可能增加了运算负担。因此,在实现时需要权衡计算效率与优化效果,确保在实际应用中能够达到预期的性能。

延伸问答

Muon优化器的构建过程是怎样的?

Muon优化器的构建过程首先在谱范数约束下进行矩阵参数的最速下降,然后引入正交约束以保持参数为正交矩阵,最终得出适用于正交性优化场景的更新规则。

为什么选择谱范数作为优化器的约束?

谱范数是揭示线性层变化的最紧凑的范数,更适合用作矩阵的稳定性度量,因此选择谱范数作为优化器的约束。

正交约束在什么场景下会被使用?

正交约束常用于分类问题和LoRA场景,可以降低冗余,尤其是在已知各个类别之间没有相关性时。

在谱范数约束下,最速下降的方向是什么?

在谱范数约束下,下降最快的方向是$- ext{msign}(oldsymbol{G})$,而不是梯度的反方向。

如何保持参数的正交性?

通过引入正交约束$oldsymbol{W}^{ op}oldsymbol{W}=oldsymbol{I}$,并在更新过程中保持这一约束,可以确保参数的正交性。

Muon优化器的更新规则是什么?

Muon优化器的更新规则为$oldsymbol{W} ightarrow oldsymbol{W}(oldsymbol{I} - heta oldsymbol{O})$,并保持正交性。

🏷️

标签

➡️

继续阅读