新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
新架构RNN反超Transformer,将隐藏状态换成可学习的模型,称为TTT。TTT在短上下文时表现超过了Transformer和Mamba,且能更好利用长上下文。隐藏状态模型可以是任意模型,可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。
🎯
关键要点
- 新架构RNN通过将隐藏状态换成可学习的模型TTT,挑战Transformer。
- TTT在短上下文表现超过Transformer和Mamba,且能更好利用长上下文。
- TTT层的隐藏状态可以是任意模型,具有更强的表达能力。
- TTT方法需要继续研究,尚未实现并行化。
- TTT通过自监督学习将上下文压缩到隐藏状态,提升拟合和泛化能力。
- TTT在32k长上下文测试中表现优于Mamba,且在速度上也有优势。
- TTT方法不仅适用于语言模型,还可用于视频建模。
❓
延伸问答
TTT架构如何改变语言模型的隐藏状态?
TTT架构将RNN中的隐藏状态替换为可学习的模型,从而增强了表达能力。
TTT在短上下文和长上下文中的表现如何?
TTT在短上下文时表现超过Transformer和Mamba,且在长上下文中也能更好利用信息。
TTT方法的隐藏状态模型可以是什么?
TTT的隐藏状态模型可以是任意模型,包括线性模型、MLP、CNN等。
TTT方法在训练时的学习机制是什么?
TTT使用自监督学习将上下文压缩到隐藏状态,并在测试时为每个输入序列训练不同的参数。
TTT架构是否能够并行化?
目前TTT方法尚未实现并行化,但团队提出了mini-batch梯度下降的解决方案。
TTT方法是否适用于视频建模?
是的,TTT方法除了用于语言模型外,还适用于视频建模。
➡️