💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
随着语言模型规模和词汇量的增加,训练时的内存主要集中在交叉熵损失计算上。交叉熵为每对输入标记和词汇项构建对数矩阵,小模型的内存消耗显著高于其他部分。为此,我们提出了Cut Cross-Entropy (CCE) 方法。
🎯
关键要点
-
语言模型的规模和词汇量不断增加。
-
训练时的内存主要集中在交叉熵损失计算上。
-
交叉熵为每对输入标记和词汇项构建对数矩阵。
-
小模型的内存消耗显著高于其他部分。
-
提出了Cut Cross-Entropy (CCE) 方法。
🏷️
标签
➡️