小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了优化器的选择与学习率的调整,指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam,学习率过小可能导致训练缓慢和局部极小值问题。此外,梯度消失与爆炸仍是深度学习中的挑战,需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06|梯度下降与反向传播

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

递归神经网络(RNN)用于处理序列数据,具备内部状态(记忆),适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆(LSTM)通过门控机制解决梯度消失问题,增强信息流动。

CS231n 讲义 VII:递归神经网络

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T13:30:09Z

LSTM之父Schmidhuber质疑何恺明是残差学习的奠基人,指出早在1991年,Hochreiter已提出循环残差连接以解决梯度消失问题。他认为ResNet等深度学习成果应归功于早期研究,争论已持续多年。

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

量子位
量子位 · 2025-10-19T14:49:10Z
变换器模型中的跳跃连接

跳跃连接在变换器模型中至关重要,解决了深层网络中的梯度消失问题。它们通过直接连接输入和输出,促进信息流动,使模型能够学习残差函数。文章还讨论了预归一化和后归一化架构的区别,前者在训练稳定性和收敛速度上表现更佳,适用于现代变换器模型。

变换器模型中的跳跃连接

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-04T03:33:11Z

本研究提出了一种新型生成对抗网络α-GAN,采用Rényi交叉熵作为损失函数,解决了传统GAN的收敛速度和梯度消失问题。研究表明,Rényi阶α在(0,1)范围内能有效加速收敛,推动GAN的发展。

基于Rényi交叉熵的α-GAN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新的初始化方案,解决了深度神经网络中静态激活函数导致的梯度消失和爆炸问题。实验表明,基于Hermite、Fourier和热带多项式的可学习激活函数显著提高了网络的准确性和稳定性。

可学习的多项式、三角和热带激活函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动的豆包大模型团队提出了超连接(Hyper-Connections),作为残差连接的替代方案,有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能,收敛速度提高了80%。超连接通过动态调整连接权重,适用于大规模语言模型和视觉任务,具有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心
机器之心 · 2024-11-07T06:36:29Z

本研究提出了多种归一化技术,如GradNorm、BatchNorm和ZNorm,旨在解决深度学习中的过拟合、梯度消失和优化问题。这些方法提高了模型的训练效率和性能,展示了归一化在深度学习中的重要性。

通过梯度归一化减轻深度残差网络中的梯度重叠以改善非凸优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了一种自构建多专家模糊系统(SOME-FS),用于解决高维数据分类中的噪声和梯度消失问题。通过结合结构学习和多专家学习,SOME-FS提高了分类器的鲁棒性和预测性能,能有效识别核心分类规则。

Self-Constructing Multi-Expert Fuzzy System for High-Dimensional Data Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究解决了变换器中信号传播和梯度消失/爆炸的问题,分析了softmax注意力机制初始状态下的传播问题。通过随机矩阵方法,提出消除谱间隙的方法解决宽度上的秩崩溃,并通过实验验证其有效性。

Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

神经网络训练中常见问题有梯度消失和梯度爆炸。解决方法包括适当初始化、梯度裁剪、批归一化和残差连接。RNN由于梯度消失问题难以学习长期依赖,LSTM能解决这个问题。GRU是LSTM的简化版本,计算成本更低。其他常见问题有过拟合、欠拟合、局部最小值和计算资源问题。解决方法包括正则化、数据增强、早停、增加模型复杂度、调整超参数、优化数据质量和利用硬件加速。

神经网络训练中的常见问题

DEV Community
DEV Community · 2024-09-07T22:20:28Z

本文介绍了ODE-RNNs模型,能够有效处理非均匀时间间隔的时间序列数据,且在长期依赖性建模上优于传统RNN。还提出了ODE-LSTM模型,解决了梯度消失问题,并在不规则图流任务中表现优越。此外,MUDRA方法有效处理缺失数据,适用于医学和心理数据集。

不规则采样时间序列预测的功能潜在动力学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文探讨了 Transformer 网络在算法任务中的应用,提出了一种概率框架以优化多语言机器翻译性能,解决了梯度消失问题。研究表明,深层模型在语言建模中表现更佳,并分析了多头注意力层的记忆能力及其对目标函数的影响。此外,研究揭示了 Transformer 的关键参数对表达能力的作用,并提出了有效的模型调整方法。

变换器在不同深度下能学到什么?对序列学习任务的案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

本文提出了一种基于图卷积操作的全新的可端到端训练的神经网络架构,通过轻量级的基于边缘条件的卷积来解决梯度消失和过参数化问题。实验结果表明了在合成高斯噪声和真实噪声上的最先进性能和改进的定性和定量结果。

非局部自相似性的连续表示再探讨

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-01T00:00:00Z

本文介绍了一种解决标准RNN训练中梯度消失和梯度爆炸问题的特殊循环神经网络——储层计算(RC),并证明了RNN可以普遍逼近线性时不变(LTI)系统。RC在自然语言处理和无线通信等领域表现出卓越的实证性能,特别适用于训练样本极为有限的情况。通过清晰的信号处理解释和理解,利用RC对一个通用的LTI系统进行了模拟,并分析了生成RC的未经训练的循环权重的最优概率分布函数。

关于循环神经网络语言模型的表示能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

BN可以稳定网络中每层输入数据的分布,提高学习率,减少梯度爆炸和梯度消失,防止参数变化放大,减少对参数初始化方法的依赖,提高网络收敛速度,减少过拟合,提高网络泛化能力。

详解神经网络基础部件BN层

华为云官方博客
华为云官方博客 · 2023-02-22T08:49:30Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码