降低大词汇量语言模型的损失

📝

内容提要

本研究解决了大型语言模型在训练过程中,因交叉熵计算导致的内存消耗过高的问题。提出了一种新的方法——Cut Cross-Entropy (CCE),该方法不需要在全局内存中生成所有的logits,而是仅计算正确token的logit,并动态评估log-sum-exp。实验结果表明,CCE显著减少了内存占用,同时不影响训练速度和收敛性。

🏷️

标签

➡️

继续阅读