小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文详细解析了Softmax损失的数学推导,重点在于线性分类器的梯度计算。通过前向传播和反向传播,推导出损失对logits、权重和偏置的梯度,并利用链式法则简化矩阵运算,帮助理解分类网络如何从错误中学习。

揭开Softmax损失的神秘面纱:线性分类器的逐步推导

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-03-28T23:45:09Z
CS231n 讲义 II:线性分类器

KNN算法存在缺陷,需要更强大的方法。新方法使用评分函数将图像像素映射为类别分数,并通过损失函数量化预测分数与真实标签的差异。我们采用多类支持向量机(SVM)损失,结合正则化,优化模型以提高泛化能力。Softmax分类器将分数视为未归一化的对数概率,并使用交叉熵损失进行优化。

CS231n 讲义 II:线性分类器

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-11T00:45:09Z
大型语言模型如何选择词汇:Logits、Softmax与采样的实用指南

本文探讨了大型语言模型(LLMs)在相同提示下生成多样化和创造性输出的机制,分析了采样策略及温度、top-k、top-p等参数对输出一致性和创造性的影响。通过实例,读者将掌握如何调整LLM的输出特性。

大型语言模型如何选择词汇:Logits、Softmax与采样的实用指南

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-13T19:25:32Z
如果今天这篇注意力机制的帖子看不懂的话,就...可以重读大一了

Softmax通过两步将分数转化为概率分布:首先取指数以确保分数为正,然后进行归一化以得到权重。转置操作QKᵀ确保查询和键的相似度计算顺利进行。

如果今天这篇注意力机制的帖子看不懂的话,就...可以重读大一了

dotNET跨平台
dotNET跨平台 · 2025-10-28T04:44:08Z

在线安全softmax是一种高效且数值稳定的算法,用于计算softmax函数。它通过同时计算输入流的最大值和归一化器,减少内存读取,提高性能,适用于多种下游算法。

在线安全Softmax

Lei Mao's Log Book
Lei Mao's Log Book · 2025-06-23T07:00:00Z

本研究提出了FLASH-D,一种改进的变换器注意力机制,通过将Softmax计算与矩阵运算结合,显著提高了计算效率,降低了硬件面积和功耗,具有实际应用潜力。

FLASH-D: FlashAttention with Implicit Softmax Division

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出RADLADS协议,快速将softmax注意力变换器转换为线性注意力解码器,解决传统模型效率不足的问题。该方法使用350-700M个token,保持推理质量,实现显著的成本效益,并在标准基准测试中表现优异。

RADLADS:针对大规模线性注意力解码器的快速注意力蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z
理解神经网络中的Softmax和交叉熵

神经网络通过Softmax函数将预测分数转换为概率,交叉熵损失用于评估预测与真实标签的差距。这两者是深度学习分类模型的基础,帮助模型进行学习和调整。

理解神经网络中的Softmax和交叉熵

DEV Community
DEV Community · 2025-04-25T16:56:17Z

本研究探讨了自注意力模型在序列映射中的普适逼近性,证明了两层自注意力和一层自注意力后接softmax函数能够逼近任意连续函数。

Softmax Attention's Universal Approximation Property

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究针对传统Transformer模型在长上下文语言建模中性能不足的问题,提出了一种新颖的“遗忘注意力”机制,通过数据依赖的方式对未归一化的注意力得分进行下调,从而构建“遗忘变压器”(FoX)。研究发现,FoX在长上下文任务上优于传统Transformer,并在不需要位置信息的情况下,兼容FlashAttention算法,显著提升了模型在短上下文下游任务的表现。

遗忘变压器:带遗忘门的Softmax注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-03T00:00:00Z

本研究提出了AdaSplash方法,旨在解决变压器模型中softmax注意力机制在长上下文任务中的计算成本问题,通过结合GPU优化和自适应稀疏性,显著提高了运行时间和内存效率。

AdaSplash: Adaptive Sparse Flash Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究分析了大语言模型中的异常值问题,定义并分类了三种异常值,探讨其与注意力机制的关系。研究发现,异常值由softmax操作引起,作为上下文感知缩放因子,消除异常值可加速收敛并改善模型压缩。

大语言模型中的系统异常值

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究解决了现有Softmax在处理长输入向量时导致注意力分布扁平化的问题,从而限制了模型对关键信息的重视和长度泛化能力。我们提出的可扩展Softmax(SSMax)可以无缝集成到现有的Transformer架构,实验结果表明采用SSMax的模型在长上下文和关键信息检索中表现显著优于传统方式,同时实现了更快的训练损失降低。

可扩展Softmax在注意力机制中的优越性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究解决了ASR系统在不同硬件环境下模型适应性不足的问题。提出的正交Softmax方法能有效地在超网络中识别最佳子网络,从而实现资源高效的模型选择。实验证明,该方法在多个模型尺寸下的表现优于单独训练的模型,具有重要的应用潜力。

高效超网络训练与正交Softmax用于可扩展的ASR模型压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究探讨了线性注意力与Softmax注意力之间的性能差距,提出理论分析,指出提升线性注意力的注入性和局部建模能力可以降低计算复杂度,从而超越Softmax注意力。

Bridging the Gap: Rethinking Softmax and Linear Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了SoftmAP方法,旨在解决大语言模型在资源受限设备上的计算和内存开销问题。该方法通过利用内存计算硬件实现低精度Softmax,仅使用整数,从而显著提高能量延迟产品,提升模型的可部署性而不损失性能。

SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z
🔍 理解逻辑回归在分类中的应用

逻辑回归是一种用于二分类问题的机器学习工具,通过sigmoid函数输出0到1之间的概率值,适合无异常值的数据集。对于多类分类,使用Softmax函数,是理解分类问题的良好起点。

🔍 理解逻辑回归在分类中的应用

DEV Community
DEV Community · 2024-11-24T06:04:32Z

本研究提出了一种名为AmpliNetECG12的轻量级深度学习架构,旨在从12导联心电图中快速准确地检测心脏疾病。该模型通过改进的激活函数和共享卷积核权重降低了复杂性,实验结果显示其在心脏疾病诊断中的准确率达到84%,具有良好的临床应用潜力。

AmpliNetECG12: A Lightweight SoftMax-Based Relativistic Amplitude Amplification Architecture for 12-Lead ECG Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究比较了神经网络中的均方误差(MSE)和Softmax交叉熵(SCE)目标函数,提出了一种新颖的输出重置算法,以增强分类器的鲁棒性。实验结果表明,结合sigmoid激活的MSE在噪声数据下表现更佳。

让Sigmoid-MSE重焕辉煌:输出重置挑战神经网络分类中的Softmax交叉熵

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了一种改进的策略镜像上升算法(SPMA),有效解决了自然策略梯度方法在大规模状态-动作空间中收敛速度慢的问题。SPMA无需对动作进行规范化,能够快速接近最优值函数,并在多个基准测试中表现出色。

快速收敛的Softmax策略镜像上升

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码