随着语言模型词汇量的增加,交叉熵的内存占用显著上升。我们提出了Cut Cross-Entropy(CCE)方法,仅计算正确标记的logit,从而显著降低内存消耗。以Gemma 2模型为例,CCE将损失计算的内存从24GB降至1MB,训练时间内存从28GB降至1GB,且不影响训练速度和收敛性。
完成下面两步后,将自动完成登录并继续当前操作。