Apple Machine Learning Research ·

在大词汇量语言模型中减少损失

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

随着语言模型词汇量的增加，交叉熵的内存占用显著上升。我们提出了Cut Cross-Entropy（CCE）方法，仅计算正确标记的logit，从而显著降低内存消耗。以Gemma 2模型为例，CCE将损失计算的内存从24GB降至1MB，训练时间内存从28GB降至1GB，且不影响训练速度和收敛性。

🎯

❓

CCE方法显著降低了内存消耗，从而减少了交叉熵计算的内存占用。

CCE将Gemma 2模型的损失计算内存从24GB降至1MB，训练时间内存从28GB降至1GB。

CCE方法仅计算正确标记的logit，并实时评估所有logit的log-sum-exp。

CCE方法在显著降低内存消耗的同时，不影响训练速度和收敛性。

CCE方法跳过对梯度计算贡献微小的元素，以提高计算吞吐量。

随着语言模型词汇量的增加，交叉熵的内存占用显著上升，主要集中在单一层上。

🏷️

技术通常为年轻的高技能工人创造就业机会。人工智能会做到这一点吗？
A new study of the postwar U.S. shows which kinds of workers historically fil...
英伟达第一财季营收816亿美元，AI算力需求未见顶，下一代芯片半年后出货 | 全球深一度
（全球TMT2026年5月21日讯）2026年5月20日盘后，英伟达(NVIDIA)公布了2027财年第一财季 […]
网络媒体播放器 4K 市场预计到 2030 年将达到 114.7 亿美元
根据The Business Research Company的报告，4K网络媒体播放器市场预计到2030年将达到114.7亿美元，年均增长率为14.7%...
在SpaceX的首次公开募股中，埃隆·马斯克是一个风险因素
SpaceX的首次公开募股（IPO）揭示了埃隆·马斯克与公司之间复杂的财务关系。SpaceX依赖马斯克的领导，但这也带来了风险，因他的其他公司可能存在竞争...
Twilio连续第四年被评为2026年Gartner® CPaaS魔力象限™的领导者
Twilio在2026年被评为Gartner CPaaS魔力象限领导者，连续四年获此荣誉。公司专注于整合通信、实时数据和人工智能，推出了语音AI和对话中继...
谷歌将在Android 17中推出继续功能可以在多台设备上无缝衔接正在运行的应用
谷歌将在Android 17中推出“继续”功能，允许用户在安卓手机与平板之间无缝切换应用，并支持双向运行。未来，安卓PC也将支持此功能，提升多设备操作的便...