矩阵参数的奇异值熵越高越好吗?

📝

内容提要

在去年的技术报告《Muon is Scalable for LLM Training》中,为了对比Muon与Adam所训练出来的模型的差异,我们引入了“奇异值熵”的概念,观察到Muon训练出来的...

➡️

继续阅读