小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

递归神经网络(RNN)用于处理序列数据,具备内部状态(记忆),适应多种输入输出结构。RNN通过递归公式更新隐藏状态并生成输出。长短期记忆(LSTM)通过门控机制解决梯度消失问题,增强信息流动。

CS231n 讲义 VII:递归神经网络

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T13:30:09Z

LSTM之父Schmidhuber质疑何恺明是残差学习的奠基人,指出早在1991年,Hochreiter已提出循环残差连接以解决梯度消失问题。他认为ResNet等深度学习成果应归功于早期研究,争论已持续多年。

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

量子位
量子位 · 2025-10-19T14:49:10Z
变换器模型中的跳跃连接

跳跃连接在变换器模型中至关重要,解决了深层网络中的梯度消失问题。它们通过直接连接输入和输出,促进信息流动,使模型能够学习残差函数。文章还讨论了预归一化和后归一化架构的区别,前者在训练稳定性和收敛速度上表现更佳,适用于现代变换器模型。

变换器模型中的跳跃连接

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-04T03:33:11Z

本研究提出了一种新型生成对抗网络α-GAN,采用Rényi交叉熵作为损失函数,解决了传统GAN的收敛速度和梯度消失问题。研究表明,Rényi阶α在(0,1)范围内能有效加速收敛,推动GAN的发展。

基于Rényi交叉熵的α-GAN

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新的初始化方案,解决了深度神经网络中静态激活函数导致的梯度消失和爆炸问题。实验表明,基于Hermite、Fourier和热带多项式的可学习激活函数显著提高了网络的准确性和稳定性。

可学习的多项式、三角和热带激活函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动的豆包大模型团队提出了超连接(Hyper-Connections),作为残差连接的替代方案,有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能,收敛速度提高了80%。超连接通过动态调整连接权重,适用于大规模语言模型和视觉任务,具有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心
机器之心 · 2024-11-07T06:36:29Z

本研究提出了统一的信号传播理论和DeepScaleLM方案,有效解决了梯度消失和爆炸问题,提升了深层转换模型在语言建模、语音翻译和图像分类等任务中的表现。

ProTransformer:通过即插即用范式增强变压器的稳健性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种自构建多专家模糊系统(SOME-FS),用于解决高维数据分类中的噪声和梯度消失问题。通过结合结构学习和多专家学习,SOME-FS提高了分类器的鲁棒性和预测性能,能有效识别核心分类规则。

Self-Constructing Multi-Expert Fuzzy System for High-Dimensional Data Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究解决了变换器中信号传播和梯度消失/爆炸的问题,分析了softmax注意力机制初始状态下的传播问题。通过随机矩阵方法,提出消除谱间隙的方法解决宽度上的秩崩溃,并通过实验验证其有效性。

注意力层中的秩崩溃与信号传播的谱分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

神经网络训练中常见问题有梯度消失和梯度爆炸。解决方法包括适当初始化、梯度裁剪、批归一化和残差连接。RNN由于梯度消失问题难以学习长期依赖,LSTM能解决这个问题。GRU是LSTM的简化版本,计算成本更低。其他常见问题有过拟合、欠拟合、局部最小值和计算资源问题。解决方法包括正则化、数据增强、早停、增加模型复杂度、调整超参数、优化数据质量和利用硬件加速。

神经网络训练中的常见问题

DEV Community
DEV Community · 2024-09-07T22:20:28Z

本文提出了一种基于图卷积操作的全新的可端到端训练的神经网络架构,解决了梯度消失和过参数化问题,具有最先进的性能和改进的结果。

快速、非局部和神经网络:图像去噪的轻量高质量解决方案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

本文提出了一种基于图卷积操作的全新的可端到端训练的神经网络架构,通过轻量级的基于边缘条件的卷积来解决梯度消失和过参数化问题。实验结果表明了在合成高斯噪声和真实噪声上的最先进性能和改进的定性和定量结果。

非局部自相似性的连续表示再探讨

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-01T00:00:00Z

本文介绍了一种解决标准RNN训练中梯度消失和梯度爆炸问题的特殊循环神经网络——储层计算(RC),并证明了RNN可以普遍逼近线性时不变(LTI)系统。RC在自然语言处理和无线通信等领域表现出卓越的实证性能,特别适用于训练样本极为有限的情况。通过清晰的信号处理解释和理解,利用RC对一个通用的LTI系统进行了模拟,并分析了生成RC的未经训练的循环权重的最优概率分布函数。

关于循环神经网络语言模型的表示能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

BN可以稳定网络中每层输入数据的分布,提高学习率,减少梯度爆炸和梯度消失,防止参数变化放大,减少对参数初始化方法的依赖,提高网络收敛速度,减少过拟合,提高网络泛化能力。

详解神经网络基础部件BN层

华为云官方博客
华为云官方博客 · 2023-02-22T08:49:30Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码