新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

新架构RNN反超Transformer,将隐藏状态换成可学习的模型,称为TTT。TTT在短上下文时表现超过了Transformer和Mamba,且能更好利用长上下文。隐藏状态模型可以是任意模型,可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。

🎯

关键要点

  • 新架构RNN通过将隐藏状态换成可学习的模型TTT,挑战Transformer。
  • TTT在短上下文表现超过Transformer和Mamba,且能更好利用长上下文。
  • TTT层的隐藏状态可以是任意模型,具有更强的表达能力。
  • TTT方法需要继续研究,尚未实现并行化。
  • TTT通过自监督学习将上下文压缩到隐藏状态,提升拟合和泛化能力。
  • TTT在32k长上下文测试中表现优于Mamba,且在速度上也有优势。
  • TTT方法不仅适用于语言模型,还可用于视频建模。

延伸问答

TTT架构如何改变语言模型的隐藏状态?

TTT架构将RNN中的隐藏状态替换为可学习的模型,从而增强了表达能力。

TTT在短上下文和长上下文中的表现如何?

TTT在短上下文时表现超过Transformer和Mamba,且在长上下文中也能更好利用信息。

TTT方法的隐藏状态模型可以是什么?

TTT的隐藏状态模型可以是任意模型,包括线性模型、MLP、CNN等。

TTT方法在训练时的学习机制是什么?

TTT使用自监督学习将上下文压缩到隐藏状态,并在测试时为每个输入序列训练不同的参数。

TTT架构是否能够并行化?

目前TTT方法尚未实现并行化,但团队提出了mini-batch梯度下降的解决方案。

TTT方法是否适用于视频建模?

是的,TTT方法除了用于语言模型外,还适用于视频建模。

➡️

继续阅读