一种基于流式幂迭代的Muon实现思路

📝

内容提要

Muon的核心运算是$\newcommand{msign}{\mathop{\text{msign}}}\msign$,当前标准实现是Newton-Schulz迭代。不得不说,这确实是一个非常高...

➡️

继续阅读