基于流式幂迭代的Muon实现:5. 延伸
📝
内容提要
本系列文章的主题是“流式幂迭代”,顾名思义,它由“流式”和“幂迭代”两部分构成,其中“幂迭代”是求矩阵SVD的一种经典的多步迭代方案,而“流式”则是指将原本需要多步迭代的算法平摊到每一步训练上,...
➡️
本系列文章的主题是“流式幂迭代”,顾名思义,它由“流式”和“幂迭代”两部分构成,其中“幂迭代”是求矩阵SVD的一种经典的多步迭代方案,而“流式”则是指将原本需要多步迭代的算法平摊到每一步训练上,...