小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了RNN（循环神经网络）与Transformer架构的演变。RNN面临长程依赖、梯度稳定和训练并行的三难问题，LSTM部分解决了梯度问题，但仍无法并行训练。2017年，Transformer通过完全依赖注意力机制解决了这三难，成为主流架构。尽管Transformer在长程依赖和并行性上表现优异，但其复杂度和内存消耗仍是局限。未来可能会出现结合循环结构的新模型，如Mamba和RWKV，以应对Transformer的不足。

【Transformer 与注意力机制】10 RNN 的根本局限：为什么需要 Transformer

土法炼钢兴趣小组的博客 ·

本文探讨了循环神经网络（RNN）在处理变长序列中的应用及其局限性。RNN通过权重共享和记忆机制处理序列数据，但存在长程依赖、梯度消失和训练并行性等问题。LSTM和GRU作为RNN的变体，通过门控机制改善了这些问题。尽管RNN在早期自然语言处理和机器翻译中发挥了重要作用，但随着Transformer的出现，其应用逐渐减少。

【Transformer 与注意力机制】09 RNN 与序列建模：Transformer 之前的世界

土法炼钢兴趣小组的博客 ·

本研究提出了NFIG创新框架，解决自回归模型在图像生成中的长程依赖、计算成本和序列定义问题，通过分阶段生成低频和高频组件，提升图像质量并降低计算开销。

Next Frequency Prediction-Based Autoregressive Image Generation

BriefGPT - AI 论文速递 ·

本文介绍了一种基于transformer模型的点云上采样方法，提出了Stratified Transformer算法，增强了长程依赖建模能力。同时，研究探讨了预训练2D知识在点云分析中的应用，提出了CDFormer架构和Point Transformer V3模型，解决了准确性与效率的权衡问题，并在多个数据集上取得了优异的分类和分割结果。

用于高效3D表示学习的位置信息提示调优

BriefGPT - AI 论文速递 ·

本文介绍了隐式图神经网络（IGNN）框架，利用Perron-Frobenius理论和隐式微分进行训练，能够有效捕捉长程依赖，优于现有的图神经网络（GNN）模型。此外，提出了动态神经图网络（DGNN）和IDGL框架，解决了动态图学习中的信息丢失和内存问题，实验结果表明其在节点分类任务中表现优异。

高效有效的隐式动态图神经网络

BriefGPT - AI 论文速递 ·

本文介绍了连续图神经网络（CGNN）在节点分类任务中的有效性，强调其抗过度平滑特性。研究探讨了图信号处理、时间依赖性学习及多级图神经网络框架的应用，展示了在物理系统模拟和偏微分方程求解中的优势。CGNN在捕捉节点间长程依赖方面表现优异，并在多个图学习数据集上取得了最新性能。

连续产品图神经网络

BriefGPT - AI 论文速递 ·

本文提出了一种名为Mamba-UNet的医学图像分割架构，结合了U-Net和Mamba的优势，采用Visual Mamba编码器-解码器结构，显著提升了分割性能。该模型在多个公共数据集上表现出竞争力，尤其在处理长程依赖和专家标注问题上具有优势。

ViM-UNet：用于生物医学分割的视觉玛巴

BriefGPT - AI 论文速递 ·