保持熵的强化学习

保持熵的强化学习

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

随着语言模型规模和词汇量的增加,训练时的内存主要集中在交叉熵损失计算上。交叉熵为每对输入标记和词汇项构建对数矩阵,小模型的内存消耗显著高于其他部分。为此,我们提出了Cut Cross-Entropy (CCE) 方法。

🎯

关键要点

  • 语言模型的规模和词汇量不断增加。

  • 训练时的内存主要集中在交叉熵损失计算上。

  • 交叉熵为每对输入标记和词汇项构建对数矩阵。

  • 小模型的内存消耗显著高于其他部分。

  • 提出了Cut Cross-Entropy (CCE) 方法。

➡️

继续阅读