小红花·文摘

递归神经网络（RNN）用于处理序列数据，具备内部状态（记忆），适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆（LSTM）通过门控机制解决梯度消失问题，增强信息流动。

CS231n 讲义 VII：递归神经网络

Louis Aeilot's Blog ·

LSTM之父Schmidhuber质疑何恺明是残差学习的奠基人，指出早在1991年，Hochreiter已提出循环残差连接以解决梯度消失问题。他认为ResNet等深度学习成果应归功于早期研究，争论已持续多年。

LSTM之父向何恺明开炮：我学生才是残差学习奠基人

量子位 ·

变换器模型中的跳跃连接

MachineLearningMastery.com ·

本研究提出了一种新型生成对抗网络α-GAN，采用Rényi交叉熵作为损失函数，解决了传统GAN的收敛速度和梯度消失问题。研究表明，Rényi阶α在(0,1)范围内能有效加速收敛，推动GAN的发展。

基于Rényi交叉熵的α-GAN

BriefGPT - AI 论文速递 ·

本研究提出了一种新的初始化方案，解决了深度神经网络中静态激活函数导致的梯度消失和爆炸问题。实验表明，基于Hermite、Fourier和热带多项式的可学习激活函数显著提高了网络的准确性和稳定性。

可学习的多项式、三角和热带激活函数

BriefGPT - AI 论文速递 ·

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

机器之心 ·

本研究提出了统一的信号传播理论和DeepScaleLM方案，有效解决了梯度消失和爆炸问题，提升了深层转换模型在语言建模、语音翻译和图像分类等任务中的表现。

ProTransformer：通过即插即用范式增强变压器的稳健性

BriefGPT - AI 论文速递 ·

本研究提出了一种自构建多专家模糊系统（SOME-FS），用于解决高维数据分类中的噪声和梯度消失问题。通过结合结构学习和多专家学习，SOME-FS提高了分类器的鲁棒性和预测性能，能有效识别核心分类规则。

Self-Constructing Multi-Expert Fuzzy System for High-Dimensional Data Classification

BriefGPT - AI 论文速递 ·

本研究解决了变换器中信号传播和梯度消失/爆炸的问题，分析了softmax注意力机制初始状态下的传播问题。通过随机矩阵方法，提出消除谱间隙的方法解决宽度上的秩崩溃，并通过实验验证其有效性。

注意力层中的秩崩溃与信号传播的谱分析

BriefGPT - AI 论文速递 ·

神经网络训练中常见问题有梯度消失和梯度爆炸。解决方法包括适当初始化、梯度裁剪、批归一化和残差连接。RNN由于梯度消失问题难以学习长期依赖，LSTM能解决这个问题。GRU是LSTM的简化版本，计算成本更低。其他常见问题有过拟合、欠拟合、局部最小值和计算资源问题。解决方法包括正则化、数据增强、早停、增加模型复杂度、调整超参数、优化数据质量和利用硬件加速。

神经网络训练中的常见问题

DEV Community ·

本文提出了一种基于图卷积操作的全新的可端到端训练的神经网络架构，解决了梯度消失和过参数化问题，具有最先进的性能和改进的结果。

快速、非局部和神经网络：图像去噪的轻量高质量解决方案

BriefGPT - AI 论文速递 ·

本文提出了一种基于图卷积操作的全新的可端到端训练的神经网络架构，通过轻量级的基于边缘条件的卷积来解决梯度消失和过参数化问题。实验结果表明了在合成高斯噪声和真实噪声上的最先进性能和改进的定性和定量结果。

非局部自相似性的连续表示再探讨

BriefGPT - AI 论文速递 ·

本文介绍了一种解决标准RNN训练中梯度消失和梯度爆炸问题的特殊循环神经网络——储层计算（RC），并证明了RNN可以普遍逼近线性时不变（LTI）系统。RC在自然语言处理和无线通信等领域表现出卓越的实证性能，特别适用于训练样本极为有限的情况。通过清晰的信号处理解释和理解，利用RC对一个通用的LTI系统进行了模拟，并分析了生成RC的未经训练的循环权重的最优概率分布函数。

关于循环神经网络语言模型的表示能力

BriefGPT - AI 论文速递 ·

BN可以稳定网络中每层输入数据的分布，提高学习率，减少梯度爆炸和梯度消失，防止参数变化放大，减少对参数初始化方法的依赖，提高网络收敛速度，减少过拟合，提高网络泛化能力。

详解神经网络基础部件BN层

华为云官方博客 ·