小红花·文摘

ParaRNN：解锁非线性RNN的大规模语言模型的并行训练

Apple Machine Learning Research ·

递归神经网络（RNN）：全面指南

DEV Community ·

学习如何使用RNN和LSTM构建多类文本分类模型

DEV Community ·

本研究分析了脉冲神经网络在序列建模中的不足，提出了一种固定不应期的脉冲神经网络架构，为稀疏脉冲模式生成提供了新的理论，影响了序列建模的研究。

重新审视用于序列建模的脉冲神经网络中的重置机制：针对二进制激活RNN的专门离散化

BriefGPT - AI 论文速递 ·

本研究提出了一种新型损失函数，Target-Robust损失，旨在提升语音识别系统在嘈杂环境下的表现，显著提高RNN-T模型的鲁棒性，恢复超过70%的识别质量。

基于RNN-转导器的嘈杂目标语音识别损失函数

BriefGPT - AI 论文速递 ·

本研究提出平铺闪存线性注意力（TFLA）算法，旨在解决线性RNN在长序列建模中的效率和内存问题，显著提升mLSTM内核性能，树立高效长上下文建模的新标准。

平铺闪存线性注意力：更高效的线性 RNN 和 xLSTM 内核

BriefGPT - AI 论文速递 ·

本研究评估了注意力图在决策解释中的有效性，分析了eSNLI语料库中RNN编码器的交叉注意力权重，发现原始注意力权重与可行解释的相关性较弱。

自然语言推理中RNN编码器之间注意力可行性研究

BriefGPT - AI 论文速递 ·

本研究解决了低资源语言建模场景中对传统变换器模型的替代方案的需求。通过使用新提出的RNN架构HGRN2，实验结果表明，BABYHGRN在BLiMP、EWoK、GLUE和BEAR基准测试中超越了变换器模型，特别是在资源受限环境中，展示了RNN模型的可行性和潜在影响。

BabyHGRN：探索使用RNN进行语言模型的样本高效训练

BriefGPT - AI 论文速递 ·

卷积神经网络（CNN）与递归神经网络（RNN）

DEV Community ·

第8部分：构建自己的人工智能 - 用于序列数据的递归神经网络（RNN）

DEV Community ·

本研究关注商业建筑短期能耗预测中的数据异质性问题，该问题影响智能电网的运营。通过使用具有合成能耗数据的ComStock数据集，我们评估了不同时间序列预测模型在数据集异质性上的表现，发现模型架构与数据集异质性对预测性能的影响大于模型参数数量。同时，经过微调的基础模型在性能上与从头训练的基础模型相当，尽管计算成本更高。

从RNN到基础模型：关于商业建筑能耗的实证研究

BriefGPT - AI 论文速递 ·

本文探讨了输入数据独立性假设的局限性，提出了一种改进的解多项网络（RPN 2），通过引入数据和结构的依赖函数，显式建模数据间的相互依赖，从而提升学习性能和兼容性，为新架构设计提供了可能性。

RPN 2：关于依赖函数学习以统一和推进 CNN、RNN、GNN 和 Transformer

BriefGPT - AI 论文速递 ·

序列建模在多个领域中很重要，传统由RNNs和LSTMs主导，但转换器的出现改变了这一局面。尽管转换器性能优越，但存在复杂度和归纳偏差问题。状态空间模型（SSMs）成为有前景的替代方案，尤其是S4及其变种的出现。SSMs在视觉、音频、语言、医疗等领域应用广泛，并在多个数据集上表现出色。

充实的曼巴：RNN基础长上下文建模中的状态崩溃与状态能力

BriefGPT - AI 论文速递 ·

本研究提出了一种名为RespDiff的多尺度RNN扩散模型，用于简化呼吸率监测。该模型通过多尺度编码器和双向RNN处理PPG信号，无需手动特征提取，准确性高于其他方法，平均绝对误差仅为1.18 bpm，为真实环境下的呼吸监测提供了新可能。

RespDiff：一种用于从PPG信号估计呼吸波形的端到端多尺度RNN扩散模型

BriefGPT - AI 论文速递 ·

Yoshua Bengio团队提出了minLSTM和minGRU，通过去除隐藏状态依赖，实现了并行训练，减少参数量，提高长序列处理效率。实验表明，这些改良版RNN在训练速度和资源消耗上表现出色，适合资源有限的场景。研究由华人Leo Feng参与，探讨了RNN在长序列任务中的潜力。

Bengio精简了传统RNN，性能可与Transformer媲美

量子位 ·

理解循环神经网络（RNN）

DEV Community ·

Llama 3和Mamba被合并以提高推理速度1.6倍。作者使用蒸馏将Transformer和Mamba模型合并，并提出了推测解码算法来加速推理过程。混合模型在聊天对话任务中达到了与Llama 3相当或更好的性能，并在零-shot NLP任务中优于RNN模型。混合模型的推理速度也得到了显著提升。整个蒸馏过程在八个80G A100 GPU上只花费了不到五天的时间。

LIama 3+Mamba强强联手！蒸馏到线性RNN，推理速度提升1.6倍

量子位 ·

RNN, LSTM, and GRU: Compare Three kinds of Seq2Seq model

DEV Community ·

TTT是一个新的模型，旨在将长上下文压缩为固定大小的隐藏状态。与RNN不同，TTT能够有效地捕捉标记之间的底层结构和关系。TTT使用自监督学习将历史上下文压缩为隐藏状态，以用于预测。该模型通过基于自监督损失更新权重进行训练。TTT在压缩长上下文的同时保持了效率和质量，展现了有希望的结果。

一文通透TTT：让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer

结构之法算法之道 ·

彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态

机器之心 ·