小红花·文摘 - 小红花技术领袖俱乐部

压缩就是智能：用初中数学语文解释什么是香农熵

压缩就是智能：用初中数学语文解释什么是香农熵

极道 ·

本文探讨了softmax函数在深度学习中的重要性及其数学原理。softmax用于分类模型的输出层和注意力机制，将任意实数向量转换为合法的概率分布，具有平移不变性和可微性。通过指数变换，softmax确保相对分数的差异决定概率比例。文章还讨论了softmax的数值稳定性、温度调节及其与交叉熵的结合，强调了其在模型训练和推理中的应用。

【Transformer 与注意力机制】07 Softmax 与概率分布：从分数到选择的桥

土法炼钢兴趣小组的博客 ·

大模型的损失函数为什么是交叉熵

大模型的损失函数为什么是交叉熵

木鸟杂记 ·

为什么大模型的损失函数是交叉熵

为什么大模型的损失函数是交叉熵

木鸟杂记 ·

从香农到现代人工智能：机器学习的完整信息理论指南

从香农到现代人工智能：机器学习的完整信息理论指南

MachineLearningMastery.com ·

理解神经网络中的Softmax和交叉熵

理解神经网络中的Softmax和交叉熵

DEV Community ·

在大词汇量语言模型中减少损失

在大词汇量语言模型中减少损失

Apple Machine Learning Research ·

机器学习中对数的介绍与Python应用

机器学习中对数的介绍与Python应用

MachineLearningMastery.com ·

本研究探讨了变压器语言模型中的迭代推理假设及其对生成不确定性的影响，结果表明，交叉熵检测不确定性的方法能够有效区分代币生成的正确与错误，具有实际应用潜力。

揭示变压器推理中的不确定性

BriefGPT - AI 论文速递 ·

数学 + Python = 爱

数学 + Python = 爱

DEV Community ·

本文探讨了通过主动学习算法选择最佳演示文稿以提升上下文学习效果。研究表明，相似性算法优于其他方法，并提出了一种基于交叉熵差异的选择方法，显著提高了语言模型的性能。通过分析示例选择机制，提出了适应任务需求的有效方法，并展示了在段落排名任务中的应用潜力。

大型语言模型的示例选择算法比较分析

BriefGPT - AI 论文速递 ·

Java开发者的神经网络进阶指南：深入探讨交叉熵损失函数 - 努力的小雨

Java开发者的神经网络进阶指南：深入探讨交叉熵损失函数 - 努力的小雨

努力的小雨 ·

常用激活函数和损失函数

常用激活函数和损失函数

kirito的博客 ·

本文探讨了多臂赌博算法与混合自适应设计结合的平均处理效应（ATE）估计方法，提出了基于交叉熵的替代下界估计器，以提高政策评估的统计有效性和功效。同时，研究介绍了自适应算法在半自动驾驶场景中的应用及分层贝叶斯方法在AB测试分析中的优势。

强化学习中 Switchback 设计的分析

BriefGPT - AI 论文速递 ·

研究发现语义保持转换的自然性对NPR系统评估有影响，60%的转换被认为是自然的，20%的转换被认为是不自然的。不自然的转换对NPR系统的稳健性测试造成了25.2%的误报率，自然转换下NPR系统性能显著下降。研究提出了基于交叉熵的新自然度度量标准，并成功实现了代码转换的自然度自动评估。

用语义保持变换评估程序修复：一种自然性评估方法

BriefGPT - AI 论文速递 ·

该研究提出了三种基于边界的深度说话人嵌入学习损失函数，以提高说话人辨识性能。实验证明该方法比传统的交叉熵损失函数softmax表现更优，在两个数据集上实现了25%~30%的等误差率(EER)降低，并分别获得了2.238% EER和2.761% EER的性能表现。

为什么角边缘损失对半监督异常声音检测很有效？

BriefGPT - AI 论文速递 ·

该研究探讨了深度神经网络在学习过程中的动态，特别关注了二元分类问题。研究发现，在非线性架构下，网络学习的分类误差呈现 sigmoid 形状。同时，研究了梯度饱和现象和特征频率对模型收敛速度的影响，以及交叉熵和hinge损失在生成对抗网络训练中的差异。最后，提出并研究了梯度饥饿现象。

通过学习系数量化奇异模型的退化

BriefGPT - AI 论文速递 ·

损失函数用于评估机器学习模型预测与真实结果之间的差异，输出误差值。模型通过最小化损失函数来提高预测准确性。常见的损失函数包括均方误差和交叉熵。

什么是损失函数？

茜文的博客 ·

本文解析了苏剑林的多标签softmax分类损失函数源码，介绍了损失公式及其实现，重点在于多标签交叉熵的计算，强调y_pred不应加激活函数，以确保预测值的准确性。

苏剑林多标签softmax分类loss源码解析

李文举 ·

本文介绍了神经网络中反向传播的微分法则，包括标量对矩阵的求导法则和迹运算技巧。通过示例推导了交叉熵函数及两层神经网络的导数计算，强调了微分与导数的关系及相关法则的应用。

神经网络的反向传播实例

李文举 ·