小红花·文摘

那些年，我们没想过的数值稳定算法

Fatescript ·

神经网络训练中常见问题有梯度消失和梯度爆炸。解决方法包括适当初始化、梯度裁剪、批归一化和残差连接。RNN由于梯度消失问题难以学习长期依赖，LSTM能解决这个问题。GRU是LSTM的简化版本，计算成本更低。其他常见问题有过拟合、欠拟合、局部最小值和计算资源问题。解决方法包括正则化、数据增强、早停、增加模型复杂度、调整超参数、优化数据质量和利用硬件加速。

神经网络训练中的常见问题

DEV Community ·

本文介绍了一种解决标准RNN训练中梯度消失和梯度爆炸问题的特殊循环神经网络——储层计算（RC），并证明了RNN可以普遍逼近线性时不变（LTI）系统。RC在自然语言处理和无线通信等领域表现出卓越的实证性能，特别适用于训练样本极为有限的情况。通过清晰的信号处理解释和理解，利用RC对一个通用的LTI系统进行了模拟，并分析了生成RC的未经训练的循环权重的最优概率分布函数。

关于循环神经网络语言模型的表示能力

BriefGPT - AI 论文速递 ·

BN可以稳定网络中每层输入数据的分布，提高学习率，减少梯度爆炸和梯度消失，防止参数变化放大，减少对参数初始化方法的依赖，提高网络收敛速度，减少过拟合，提高网络泛化能力。

详解神经网络基础部件BN层

华为云官方博客 ·