小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
ParaRNN:解锁非线性RNN的大规模语言模型的并行训练

ParaRNN是一个新框架,突破了非线性RNN的序列并行限制。它通过将非线性递归关系转化为方程组,并利用牛顿迭代法并行求解,实现了高达665倍的加速,支持训练7B参数的模型,效果与大型Transformer相当。该框架已开源,推动了高效序列建模的研究。

ParaRNN:解锁非线性RNN的大规模语言模型的并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
递归神经网络(RNN):全面指南

递归神经网络(RNN)是一种处理序列数据的神经网络,具备“记忆”功能,广泛应用于自然语言处理、机器翻译和情感分析等领域。长短期记忆(LSTM)网络解决了基本RNN的梯度消失问题,增强了对长距离依赖的捕捉能力。尽管RNN存在训练困难和计算开销大的缺点,但其在深度学习中的重要性持续上升。

递归神经网络(RNN):全面指南

DEV Community
DEV Community · 2025-05-05T09:49:49Z
学习如何使用RNN和LSTM构建多类文本分类模型

多类文本分类是自然语言处理中的关键任务,RNN和LSTM模型用于处理文本序列。RNN适合顺序数据,但对长文本效果不佳;LSTM通过增强记忆能力解决此问题。构建分类器需收集标记数据、预处理文本、建立并训练模型。该技术广泛应用于情感分析和邮件分类等领域,提高了文本处理的准确性和效率。

学习如何使用RNN和LSTM构建多类文本分类模型

DEV Community
DEV Community · 2025-04-28T08:14:10Z

本研究分析了脉冲神经网络在序列建模中的不足,提出了一种固定不应期的脉冲神经网络架构,为稀疏脉冲模式生成提供了新的理论,影响了序列建模的研究。

重新审视用于序列建模的脉冲神经网络中的重置机制:针对二进制激活RNN的专门离散化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究提出了一种新型损失函数,Target-Robust损失,旨在提升语音识别系统在嘈杂环境下的表现,显著提高RNN-T模型的鲁棒性,恢复超过70%的识别质量。

基于RNN-转导器的嘈杂目标语音识别损失函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究提出平铺闪存线性注意力(TFLA)算法,旨在解决线性RNN在长序列建模中的效率和内存问题,显著提升mLSTM内核性能,树立高效长上下文建模的新标准。

平铺闪存线性注意力:更高效的线性 RNN 和 xLSTM 内核

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究评估了注意力图在决策解释中的有效性,分析了eSNLI语料库中RNN编码器的交叉注意力权重,发现原始注意力权重与可行解释的相关性较弱。

自然语言推理中RNN编码器之间注意力可行性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究解决了低资源语言建模场景中对传统变换器模型的替代方案的需求。通过使用新提出的RNN架构HGRN2,实验结果表明,BABYHGRN在BLiMP、EWoK、GLUE和BEAR基准测试中超越了变换器模型,特别是在资源受限环境中,展示了RNN模型的可行性和潜在影响。

BabyHGRN:探索使用RNN进行语言模型的样本高效训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-20T00:00:00Z
卷积神经网络(CNN)与递归神经网络(RNN)

卷积神经网络(CNN)主要用于计算机视觉任务,通过卷积层提取特征;递归神经网络(RNN)则用于自然语言处理,保持内部状态处理数据序列。两者广泛应用于图像识别、机器翻译和情感分析等领域。

卷积神经网络(CNN)与递归神经网络(RNN)

DEV Community
DEV Community · 2024-12-16T13:06:22Z
第8部分:构建自己的人工智能 - 用于序列数据的递归神经网络(RNN)

递归神经网络(RNN)用于处理序列数据,具备记忆能力。其变体LSTM和GRU解决了基本RNN的梯度消失和爆炸问题,广泛应用于语言建模、情感分析和时间序列预测等领域。

第8部分:构建自己的人工智能 - 用于序列数据的递归神经网络(RNN)

DEV Community
DEV Community · 2024-12-13T05:29:55Z

本研究关注商业建筑短期能耗预测中的数据异质性问题,该问题影响智能电网的运营。通过使用具有合成能耗数据的ComStock数据集,我们评估了不同时间序列预测模型在数据集异质性上的表现,发现模型架构与数据集异质性对预测性能的影响大于模型参数数量。同时,经过微调的基础模型在性能上与从头训练的基础模型相当,尽管计算成本更高。

从RNN到基础模型:关于商业建筑能耗的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文探讨了输入数据独立性假设的局限性,提出了一种改进的解多项网络(RPN 2),通过引入数据和结构的依赖函数,显式建模数据间的相互依赖,从而提升学习性能和兼容性,为新架构设计提供了可能性。

RPN 2:关于依赖函数学习以统一和推进 CNN、RNN、GNN 和 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-17T00:00:00Z

序列建模在多个领域中很重要,传统由RNNs和LSTMs主导,但转换器的出现改变了这一局面。尽管转换器性能优越,但存在复杂度和归纳偏差问题。状态空间模型(SSMs)成为有前景的替代方案,尤其是S4及其变种的出现。SSMs在视觉、音频、语言、医疗等领域应用广泛,并在多个数据集上表现出色。

充实的曼巴:RNN基础长上下文建模中的状态崩溃与状态能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究提出了一种名为RespDiff的多尺度RNN扩散模型,用于简化呼吸率监测。该模型通过多尺度编码器和双向RNN处理PPG信号,无需手动特征提取,准确性高于其他方法,平均绝对误差仅为1.18 bpm,为真实环境下的呼吸监测提供了新可能。

RespDiff:一种用于从PPG信号估计呼吸波形的端到端多尺度RNN扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

Yoshua Bengio团队提出了minLSTM和minGRU,通过去除隐藏状态依赖,实现了并行训练,减少参数量,提高长序列处理效率。实验表明,这些改良版RNN在训练速度和资源消耗上表现出色,适合资源有限的场景。研究由华人Leo Feng参与,探讨了RNN在长序列任务中的潜力。

Bengio精简了传统RNN,性能可与Transformer媲美

量子位
量子位 · 2024-10-04T04:55:57Z
理解循环神经网络(RNN)

循环神经网络(RNN)是一种处理序列数据的神经网络,适用于时间序列和自然语言处理。RNN通过更新隐藏状态捕捉信息,但训练时可能遇到梯度消失或爆炸问题。长短期记忆(LSTM)和门控循环单元(GRU)解决了这些问题。尽管有局限性,RNN仍是序列建模的重要工具。

理解循环神经网络(RNN)

DEV Community
DEV Community · 2024-09-25T16:20:56Z

Llama 3和Mamba被合并以提高推理速度1.6倍。作者使用蒸馏将Transformer和Mamba模型合并,并提出了推测解码算法来加速推理过程。混合模型在聊天对话任务中达到了与Llama 3相当或更好的性能,并在零-shot NLP任务中优于RNN模型。混合模型的推理速度也得到了显著提升。整个蒸馏过程在八个80G A100 GPU上只花费了不到五天的时间。

LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍

量子位
量子位 · 2024-09-10T06:05:23Z

RNN, LSTM, and GRU: Compare Three kinds of Seq2Seq model

DEV Community
DEV Community · 2024-08-30T06:10:30Z

TTT是一个新的模型,旨在将长上下文压缩为固定大小的隐藏状态。与RNN不同,TTT能够有效地捕捉标记之间的底层结构和关系。TTT使用自监督学习将历史上下文压缩为隐藏状态,以用于预测。该模型通过基于自监督损失更新权重进行训练。TTT在压缩长上下文的同时保持了效率和质量,展现了有希望的结果。

一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer

结构之法 算法之道
结构之法 算法之道 · 2024-07-22T13:42:05Z
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

一项新的研究提出了名为Test-Time Training(TTT)的新架构,用于替代Transformer模型,并在大型语言模型(LLM)上取得更好的性能。TTT通过使用机器学习模型代替RNN的隐藏状态,并通过实际梯度下降来压缩上下文,设计了新架构。实验结果表明,TTT-Linear和TTT-MLP能够匹敌或击败最强大的Transformer和Mamba架构方法。研究团队公开了代码供人们训练和测试。该研究认为,TTT层可以直接替代Transformer中的自注意力层,并具有更低的困惑度和更好的利用长上下文的能力。

彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

机器之心
机器之心 · 2024-07-10T03:20:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码