木鸟杂记 ·

大模型的损失函数为什么是交叉熵

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

大模型的损失函数主要是交叉熵，通过量化模型输出与预期的差距来评估性能。交叉熵与负对数似然（NLL）密切相关，都是衡量预测准确性的工具。训练目标是最小化损失值，以提高预测准确性。交叉熵从信息论角度评估模型分布与真实分布的一致性，确保模型能准确预测下一个词元。

🎯

关键要点

大模型的损失函数主要是交叉熵，通过量化模型输出与预期的差距来评估性能。
交叉熵与负对数似然（NLL）密切相关，都是衡量预测准确性的工具。
训练目标是最小化损失值，以提高预测准确性。
交叉熵从信息论角度评估模型分布与真实分布的一致性，确保模型能准确预测下一个词元。
模型的工作原理是给定上下文，预测下一个词元，损失函数需要符合模型续写出正确答案的概率高则损失小的直觉。
交叉熵衡量模型分布和真实分布的一致程度，反映了模型的预测能力。
交叉熵和NLL在本质上是同一件事，都是为了量化模型离正确答案的距离。

❓

延伸问答

交叉熵在大模型中的作用是什么？

交叉熵用于量化模型输出与预期之间的差距，从而评估模型的性能。

为什么大模型的损失函数选择交叉熵而不是其他形式？

交叉熵符合概率论和信息论的要求，能够有效量化模型的预测能力，并且在优化时提供强信号。

交叉熵与负对数似然（NLL）有什么关系？

交叉熵和NLL本质上是同一件事，都是用来量化模型输出与真实分布之间的距离。

大模型是如何利用交叉熵进行训练的？

大模型通过最小化交叉熵损失来提高预测准确性，确保模型能准确预测下一个词元。

交叉熵如何从信息论的角度评估模型？

交叉熵衡量模型分布与真实分布的一致性，反映了模型在预测时的准确性。

在大模型中，如何理解损失函数的最小化目标？

损失函数的最小化目标是使模型续写出正确答案的概率最大化，从而降低损失值。

🏷️

继续阅读

Vulkan 1.4.352 引入了 VK_NV_cooperative_matrix_decode_vector 函数
Vulkan 1.4.352 更新了 NVIDIA 开发的 VK_NV_cooperative_matrix_decode_vector 扩展，提升了协作...
大模型不只是猜下一个词：猜词猜出了智能的雏形
大语言模型（LLM）不仅仅是预测下一个词的工具。虽然其训练任务是词汇预测，但为了提高准确性，模型必须学习语法、常识和推理等深层结构。这些能力使得模型在新场...
微软确认Windows 11 5月更新存在无法安装并触发0x800f0922错误代码自动回滚
微软确认Windows 11更新KB5089549因EFI系统分区空间不足导致安装失败，受影响设备在重启时会自动回滚，用户无需操作。微软已通过云端推送KI...
百度集团发布26Q1财报广告营收持续走低/AI营收持续增长/净利润暴跌55%
百度集团2026年第一季度财报显示，净利润34.5亿元，同比下降55%。在线广告收入下滑21.25%，但AI相关业务营收增长49%，已占总营收的50%。百...
三星罢工倒计时，中国HBM产业链的机会来了？
三星即将进行大规模罢工，原因是员工对薪酬和奖金制度不满。工会要求将营业利润的15%纳入奖金池，但三星担心这会影响未来投资。同时，SK海力士因提供更优厚的奖...
代码可以让 AI 写，但设计得由你做：重塑工程师的“算法直觉”
在AI时代，编码成本降低，设计和判断的价值上升。文章探讨如何通过算法图谱提升工程师的“算法直觉”，连接LeetCode模式与实际工程。课程分为五季，涵盖数...