Louis Aeilot's Blog ·

揭开Softmax损失的神秘面纱：线性分类器的逐步推导

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

本文详细解析了Softmax损失的数学推导，重点在于线性分类器的梯度计算。通过前向传播和反向传播，推导出损失对logits、权重和偏置的梯度，并利用链式法则简化矩阵运算，帮助理解分类网络如何从错误中学习。

🎯

关键要点

Softmax损失的数学推导涉及前向传播和反向传播的过程。
输入特征为D维，分类为C个类别，计算原始分数（logits）z=Wx+b。
Softmax层将原始分数转换为概率分布，类别i的概率为pi=ezi/∑j=1Cezj。
交叉熵损失函数只关注真实类别的预测概率，损失为L=−log(py)。
通过链式法则推导出损失对logits的梯度，分为真实类别和错误类别两种情况。
真实类别的梯度为∂L/∂zy=py−1，错误类别的梯度为∂L/∂zi=pi。
权重和偏置的梯度通过链式法则从logits的梯度传递回去，权重的梯度为∂L/∂Wij=dzi⋅xj，偏置的梯度为∂L/∂b=dz。
在小批量训练中，处理N个样本以稳定梯度，计算平均梯度。
通过系统应用链式法则，将复杂的矩阵微积分问题转化为高效的线性代数运算。

❓

延伸问答

Softmax损失的数学推导包括哪些主要步骤？

Softmax损失的数学推导包括前向传播、计算logits、Softmax层转换为概率分布、交叉熵损失计算以及反向传播的梯度推导。

如何计算Softmax层的概率分布？

Softmax层的概率分布通过公式pi=ezi/∑j=1Cezj计算，其中zi是原始分数，C是类别数。

交叉熵损失函数的定义是什么？

交叉熵损失函数定义为L=−log(py)，其中py是真实类别的预测概率。

在反向传播中，如何计算logits的梯度？

logits的梯度通过链式法则推导，真实类别的梯度为py−1，错误类别的梯度为pi。

权重和偏置的梯度是如何计算的？

权重的梯度通过∂L/∂Wij=dzi⋅xj计算，偏置的梯度为∂L/∂b=dz。

小批量训练中如何处理梯度？

在小批量训练中，通过处理N个样本计算平均梯度，以稳定梯度并利用并行计算。

🏷️

继续阅读

[MAF的Agent管道详解-02]IChatClient管道如何完美连接大模型？ - Artech
本文介绍了IChatClient管道的结构与功能。IChatClient作为与LLM交互的连接器，提供GetResponseAsync和GetStream...
【Rust日报】2026-05-27 speakrs - 快速 Rust 说话人分离工具
speakrs 是一个用 Rust 实现的高速说话人分离工具，实时性能高达 529x，适合音频处理和会议转录。BoquilaHUB v0.5 更新了音频能...
华为韬定律，洪秀全说上帝是我哥，这两件事，有什么关系？
华为发布的τ定律旨在统一国内半导体生态，通过时间缩微和逻辑折叠等方法提升芯片性能。尽管这些技术并非新创，华为希望借此打破美国限制，实现民族复兴，动员行业遵...
教皇是否使用人工智能撰写有关人工智能危险的内容？
有分析指出，教皇利奥十四世的通谕《Magnifica Humanitas》中部分内容可能由人工智能撰写，AI检测工具Pangram显示某些段落的AI写作比...
IndoVirtue：新加坡独服$55/月，100M不限流或1Gbps限10TB，HDD/SSD自选
IndoVirtue在新加坡提供独立服务器和VPS服务。独立服务器月费从55美元起，支持国际和中国优化线路；VPS月费从7美元起，采用KVM架构，适合东南亚及亚太用户。
早报｜小米卢伟冰：大型新车今年下半年上市/支付宝推出全球首个Token Pay服务/滴滴崩了，官方致歉
小米宣布MiMo-V2.5系列API永久降价，降幅最高达99%。QuestMobile报告显示AI原生App月活用户达4.61亿。小米一季度营收991亿元...