新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

新架构RNN反超Transformer,将隐藏状态换成可学习的模型,称为TTT。TTT在短上下文时表现超过了Transformer和Mamba,且能更好利用长上下文。隐藏状态模型可以是任意模型,可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。

🎯

关键要点

  • 新架构RNN通过将隐藏状态换成可学习的模型TTT,挑战Transformer。
  • TTT在短上下文表现超过Transformer和Mamba,且能更好利用长上下文。
  • TTT层的隐藏状态可以是任意模型,具有更强的表达能力。
  • TTT方法需要继续研究,尚未实现并行化。
  • TTT通过自监督学习将上下文压缩到隐藏状态,提升拟合和泛化能力。
  • TTT在32k长上下文测试中表现优于Mamba,且在速度上也有优势。
  • TTT方法不仅适用于语言模型,还可用于视频建模。
➡️

继续阅读