土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】10 RNN 的根本局限：为什么需要 Transformer

💡 原文中文，约20900字，阅读约需50分钟。

📝

内容提要

本文探讨了RNN（循环神经网络）与Transformer架构的演变。RNN面临长程依赖、梯度稳定和训练并行的三难问题，LSTM部分解决了梯度问题，但仍无法并行训练。2017年，Transformer通过完全依赖注意力机制解决了这三难，成为主流架构。尽管Transformer在长程依赖和并行性上表现优异，但其复杂度和内存消耗仍是局限。未来可能会出现结合循环结构的新模型，如Mamba和RWKV，以应对Transformer的不足。

🎯

关键要点

RNN面临长程依赖、梯度稳定和训练并行的三难问题，LSTM部分解决了梯度问题，但仍无法并行训练。
2017年，Transformer通过完全依赖注意力机制解决了这三难，成为主流架构。
尽管Transformer在长程依赖和并行性上表现优异，但其复杂度和内存消耗仍是局限。
未来可能会出现结合循环结构的新模型，如Mamba和RWKV，以应对Transformer的不足。

🔎

延伸解读

RNN的局限性与Transformer的崛起

RNN在处理长程依赖、梯度稳定性和训练并行性方面存在根本性局限。尽管LSTM部分缓解了梯度消失问题，但仍无法实现有效的并行训练。Transformer通过完全依赖注意力机制，成功解决了这些问题，成为主流架构。理解这一演变有助于把握深度学习的发展脉络。

Transformer的复杂性与内存消耗

虽然Transformer在长程依赖和并行性上表现优异，但其复杂度和内存消耗仍是显著的局限。尤其在处理长序列时，内存需求呈现平方级增长，这对实际应用构成挑战。未来的研究可能会集中在如何优化这些问题，以提升Transformer的实用性。

未来模型的可能性

随着对Transformer局限性的认识加深，新的模型如Mamba和RWKV开始出现。这些模型试图结合循环结构，以应对Transformer在长序列处理上的不足。未来的架构可能会是Transformer与循环结构的混合，展现出更强的灵活性和效率。

❓

延伸问答

RNN面临哪些主要问题？

RNN面临长程依赖、梯度稳定和训练并行的三难问题。

Transformer是如何解决RNN的三难问题的？

Transformer通过完全依赖注意力机制，抛弃循环结构，解决了长程依赖、梯度稳定和训练并行的问题。

Transformer的复杂度和内存消耗有哪些局限？

Transformer的复杂度为O(N^2)，在处理长上下文时内存消耗较大。

未来可能出现哪些新模型来应对Transformer的不足？

未来可能会出现结合循环结构的新模型，如Mamba和RWKV。

LSTM在长程依赖方面的实际表现如何？

LSTM在语言建模任务中对最近约50个token敏感，但对超过200个token的依赖基本无效。

RNN和Transformer在训练并行性上有什么区别？

RNN的训练是串行的，GPU利用率低，而Transformer可以全并行训练，GPU利用率高。

🏷️