小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了softmax函数在深度学习中的重要性及其数学原理。softmax用于分类模型的输出层和注意力机制,将任意实数向量转换为合法的概率分布,具有平移不变性和可微性。通过指数变换,softmax确保相对分数的差异决定概率比例。文章还讨论了softmax的数值稳定性、温度调节及其与交叉熵的结合,强调了其在模型训练和推理中的应用。

【Transformer 与注意力机制】07 Softmax 与概率分布:从分数到选择的桥

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
矩陣的 Modified Gram Schmidt 方法

本文探讨改进的 Gram-Schmidt 正交化方法,旨在解决经典方法中的数值不稳定性和误差。改进方法在每次计算后立即更新向量,保持正交性,从而提高数值稳定性。

矩陣的 Modified Gram Schmidt 方法

Louis Aeilot's Blog
Louis Aeilot's Blog · 2025-11-27T14:45:09Z

本文介绍了一种高效计算方差的算法,通过同时计算均值和均方实现一次遍历。由于浮点数计算可能导致数值不稳定,尤其在方差小而均值大时,可能出现灾难性取消。为提高算法的数值稳定性,可以采用数据平移技巧,保持方差不变。

一次遍历的简单方差计算算法

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-29T07:00:00Z

statsrust 是一个高性能的 Rust 统计分析库,注重数值稳定性和用户友好的 API。由于缺乏简单全面的统计库,作者基于 Python 标准库创建了此库,期待用户反馈。

statsrust - Rust 的統計分析庫

Rust.cc
Rust.cc · 2025-08-29T04:29:35Z

本研究提出了一种新颖的格子玻尔兹曼方法(LBM)与图神经网络(GNN)结合的方案,旨在提高流体动力学模拟的数值稳定性和准确性,并在高雷诺数下保持良好的守恒特性。

图神经网络增强的格子玻尔兹曼方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
那些年,我们没想过的数值稳定算法

深度学习模型训练中,数值计算误差传播可能导致梯度爆炸或消失。本文探讨了提高数值稳定性的方法,包括重写数学公式、采用不同算法、提高计算精度和限制输入范围等策略,以增强计算结果的准确性和稳定性。

那些年,我们没想过的数值稳定算法

Fatescript
Fatescript · 2025-04-06T15:59:00Z

本研究提出了一种新颖的隐式物理集成神经可微求解器Im-PiNDiff,旨在解决混合神经-物理建模在长时间预测中的不稳定性和误差累积问题。该方法通过混合梯度传播策略实现可扩展训练,显著降低内存和运行时间成本,并在多种时空偏微分方程系统中展现出优越的预测性能和增强的数值稳定性。

Implicit Neural Differential Model for Spatiotemporal Dynamics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种基于代数分级的分级神经网络(GNN)框架,克服了传统神经网络在特征重要性处理上的局限性,定义了分级空间的特性,并提升了计算的数值稳定性和梯度缩放,为机器学习和光子系统的应用开辟了新方向。

分级神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本研究提出DINT变换器,改进了DIFF变换器在全局上下文建模和数值稳定性方面的不足,通过差分-积分机制增强了对全局依赖的捕捉能力。实验结果表明,DINT在长上下文语言建模和关键信息检索中表现优异。

Differential-Integral Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本文探讨了传统Softmax注意力在推理令牌长度增加时的数值不稳定和性能下降问题。提出了一种新颖的Softplus注意力机制,结合动态长度尺度因子和重新加权,显著提升了大型语言模型在处理长序列时的稳定性和性能。

Softplus Attention with Re-weighting Enhances Length Extrapolation Capability in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究探讨了非线性动力模型在语言数据建模中的参数选择和数值稳定性,提出了一种基于功率律的参数化方法,应用于立方体模型,提升了对言语产生中非线性手势动态的模拟准确性,为言语测量工具的设计提供了新视角。

Scaling Laws for Nonlinear Dynamical Models of Speech

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

该研究提出了一种使用隐式函数定理(IFT)的新方法,以区分非凸约束离散时间最优控制(COC)问题中的最优轨迹。该方法易于并行化处理、可扩展性显著提高、直接计算向量雅可比积以及相较于以前的方法具有改进的数值稳定性。

优化控制学习问题中隐式微分的再探

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码