降低大词汇量语言模型的损失
📝
内容提要
本研究解决了大型语言模型在训练过程中,因交叉熵计算导致的内存消耗过高的问题。提出了一种新的方法——Cut Cross-Entropy (CCE),该方法不需要在全局内存中生成所有的logits,而是仅计算正确token的logit,并动态评估log-sum-exp。实验结果表明,CCE显著减少了内存占用,同时不影响训练速度和收敛性。
🏷️
标签
➡️