小红花·文摘

新架构RNN反超Transformer，将隐藏状态换成可学习的模型，称为TTT。TTT在短上下文时表现超过了Transformer和Mamba，且能更好利用长上下文。隐藏状态模型可以是任意模型，可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。