小红花·文摘

本文详细解析了Softmax损失的数学推导，重点在于线性分类器的梯度计算。通过前向传播和反向传播，推导出损失对logits、权重和偏置的梯度，并利用链式法则简化矩阵运算，帮助理解分类网络如何从错误中学习。

揭开Softmax损失的神秘面纱：线性分类器的逐步推导

Louis Aeilot's Blog ·

CS231n 讲义 II：线性分类器

Louis Aeilot's Blog ·

大型语言模型如何选择词汇：Logits、Softmax与采样的实用指南

MachineLearningMastery.com ·

如果今天这篇注意力机制的帖子看不懂的话，就...可以重读大一了

dotNET跨平台 ·

在线安全softmax是一种高效且数值稳定的算法，用于计算softmax函数。它通过同时计算输入流的最大值和归一化器，减少内存读取，提高性能，适用于多种下游算法。

在线安全Softmax

Lei Mao's Log Book ·

本研究提出了FLASH-D，一种改进的变换器注意力机制，通过将Softmax计算与矩阵运算结合，显著提高了计算效率，降低了硬件面积和功耗，具有实际应用潜力。

FLASH-D: FlashAttention with Implicit Softmax Division

BriefGPT - AI 论文速递 ·

本研究提出RADLADS协议，快速将softmax注意力变换器转换为线性注意力解码器，解决传统模型效率不足的问题。该方法使用350-700M个token，保持推理质量，实现显著的成本效益，并在标准基准测试中表现优异。

RADLADS：针对大规模线性注意力解码器的快速注意力蒸馏

BriefGPT - AI 论文速递 ·

理解神经网络中的Softmax和交叉熵

DEV Community ·

本研究探讨了自注意力模型在序列映射中的普适逼近性，证明了两层自注意力和一层自注意力后接softmax函数能够逼近任意连续函数。

Softmax Attention's Universal Approximation Property

BriefGPT - AI 论文速递 ·

本研究针对传统Transformer模型在长上下文语言建模中性能不足的问题，提出了一种新颖的“遗忘注意力”机制，通过数据依赖的方式对未归一化的注意力得分进行下调，从而构建“遗忘变压器”（FoX）。研究发现，FoX在长上下文任务上优于传统Transformer，并在不需要位置信息的情况下，兼容FlashAttention算法，显著提升了模型在短上下文下游任务的表现。

遗忘变压器：带遗忘门的Softmax注意力

BriefGPT - AI 论文速递 ·

本研究提出了AdaSplash方法，旨在解决变压器模型中softmax注意力机制在长上下文任务中的计算成本问题，通过结合GPU优化和自适应稀疏性，显著提高了运行时间和内存效率。

AdaSplash: Adaptive Sparse Flash Attention

BriefGPT - AI 论文速递 ·

本研究分析了大语言模型中的异常值问题，定义并分类了三种异常值，探讨其与注意力机制的关系。研究发现，异常值由softmax操作引起，作为上下文感知缩放因子，消除异常值可加速收敛并改善模型压缩。

大语言模型中的系统异常值

BriefGPT - AI 论文速递 ·

本研究解决了现有Softmax在处理长输入向量时导致注意力分布扁平化的问题，从而限制了模型对关键信息的重视和长度泛化能力。我们提出的可扩展Softmax（SSMax）可以无缝集成到现有的Transformer架构，实验结果表明采用SSMax的模型在长上下文和关键信息检索中表现显著优于传统方式，同时实现了更快的训练损失降低。

可扩展Softmax在注意力机制中的优越性

BriefGPT - AI 论文速递 ·

本研究解决了ASR系统在不同硬件环境下模型适应性不足的问题。提出的正交Softmax方法能有效地在超网络中识别最佳子网络，从而实现资源高效的模型选择。实验证明，该方法在多个模型尺寸下的表现优于单独训练的模型，具有重要的应用潜力。

高效超网络训练与正交Softmax用于可扩展的ASR模型压缩

BriefGPT - AI 论文速递 ·

本研究探讨了线性注意力与Softmax注意力之间的性能差距，提出理论分析，指出提升线性注意力的注入性和局部建模能力可以降低计算复杂度，从而超越Softmax注意力。

Bridging the Gap: Rethinking Softmax and Linear Attention

BriefGPT - AI 论文速递 ·

本研究提出了SoftmAP方法，旨在解决大语言模型在资源受限设备上的计算和内存开销问题。该方法通过利用内存计算硬件实现低精度Softmax，仅使用整数，从而显著提高能量延迟产品，提升模型的可部署性而不损失性能。

SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors

BriefGPT - AI 论文速递 ·

🔍 理解逻辑回归在分类中的应用

DEV Community ·

本研究提出了一种名为AmpliNetECG12的轻量级深度学习架构，旨在从12导联心电图中快速准确地检测心脏疾病。该模型通过改进的激活函数和共享卷积核权重降低了复杂性，实验结果显示其在心脏疾病诊断中的准确率达到84%，具有良好的临床应用潜力。

AmpliNetECG12: A Lightweight SoftMax-Based Relativistic Amplitude Amplification Architecture for 12-Lead ECG Classification

BriefGPT - AI 论文速递 ·

本研究比较了神经网络中的均方误差（MSE）和Softmax交叉熵（SCE）目标函数，提出了一种新颖的输出重置算法，以增强分类器的鲁棒性。实验结果表明，结合sigmoid激活的MSE在噪声数据下表现更佳。

让Sigmoid-MSE重焕辉煌：输出重置挑战神经网络分类中的Softmax交叉熵

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的策略镜像上升算法（SPMA），有效解决了自然策略梯度方法在大规模状态-动作空间中收敛速度慢的问题。SPMA无需对动作进行规范化，能够快速接近最优值函数，并在多个基准测试中表现出色。

快速收敛的Softmax策略镜像上升

BriefGPT - AI 论文速递 ·