土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】07 Softmax 与概率分布：从分数到选择的桥

💡 原文中文，约32600字，阅读约需78分钟。

📝

内容提要

本文探讨了softmax函数在深度学习中的重要性及其数学原理。softmax用于分类模型的输出层和注意力机制，将任意实数向量转换为合法的概率分布，具有平移不变性和可微性。通过指数变换，softmax确保相对分数的差异决定概率比例。文章还讨论了softmax的数值稳定性、温度调节及其与交叉熵的结合，强调了其在模型训练和推理中的应用。

🎯

关键要点

softmax函数在深度学习中频繁出现，主要用于分类模型的输出层和注意力机制。
softmax将任意实数向量转换为合法的概率分布，确保每个元素非负且总和为1。
softmax具有平移不变性，意味着对所有分数加上同一常数不会改变输出的概率分布。
softmax的输出依赖于分数之间的相对差异，而非绝对值，确保概率比由分数差距决定。
softmax的数学公式为p_i = e^{z_i} / ∑ e^{z_j}，具有可微性和严格正性。
softmax与交叉熵结合时，梯度简化为模型预测与真实值之差，便于反向传播。
温度参数可以调节softmax的输出分布形状，影响模型的确定性和多样性。
softmax在注意力机制中起到核心作用，使得权重分配可微且具有竞争性。
softmax的数值稳定性可以通过减去最大值来实现，避免溢出问题。
softmax的变体如sparsemax和Gumbel-softmax等在特定场景下提供了不同的功能和优势。

🔎

延伸解读

Softmax的数学基础与应用

Softmax函数不仅仅是一个简单的归一化工具，它在深度学习中扮演着重要的角色。通过将任意实数向量转换为合法的概率分布，softmax确保了每个元素非负且总和为1。这一特性使得softmax在分类模型的输出层和注意力机制中不可或缺，尤其是在需要将分数转化为概率的场景中。

数值稳定性的重要性

在实现softmax时，数值稳定性是一个关键问题。直接计算可能导致溢出，因此采用减去最大值的技巧可以有效避免这一问题。这种方法不仅保证了计算的准确性，还确保了softmax的输出在数值上是安全的，尤其是在处理大数值时。

温度参数的调节作用

温度参数在softmax中起着调节输出分布形状的作用。通过调整温度，可以控制模型的确定性和多样性。较低的温度会使得输出更为尖锐，接近one-hot分布，而较高的温度则会使输出更均匀。这一特性在生成模型和对话系统中尤为重要，可以帮助模型在不同场景下产生更合适的输出。

❓

延伸问答

softmax函数在深度学习中有什么重要性？

softmax函数用于分类模型的输出层和注意力机制，将任意实数向量转换为合法的概率分布，确保每个元素非负且总和为1。

softmax的数学原理是什么？

softmax的数学公式为p_i = e^{z_i} / ∑ e^{z_j}，它通过指数变换确保相对分数的差异决定概率比例。

什么是softmax的平移不变性？

平移不变性指的是对所有分数加上同一常数不会改变输出的概率分布，这一特性使得softmax在处理分数时更加稳定。

softmax与交叉熵结合时有什么优势？

softmax与交叉熵结合时，梯度简化为模型预测与真实值之差，便于反向传播，提高了训练效率。

温度参数在softmax中有什么作用？

温度参数可以调节softmax的输出分布形状，影响模型的确定性和多样性，温度越小，分布越尖锐；温度越大，分布越均匀。

softmax的数值稳定性如何实现？

softmax的数值稳定性可以通过减去最大值来实现，避免溢出问题，确保计算的安全性。

🏷️