矩阵参数的奇异值熵越高越好吗?
📝
内容提要
在去年的技术报告《Muon is Scalable for LLM Training》中,为了对比Muon与Adam所训练出来的模型的差异,我们引入了“奇异值熵”的概念,观察到Muon训练出来的...
➡️
在去年的技术报告《Muon is Scalable for LLM Training》中,为了对比Muon与Adam所训练出来的模型的差异,我们引入了“奇异值熵”的概念,观察到Muon训练出来的...