新架构RNN反超Transformer,将隐藏状态换成可学习的模型,称为TTT。TTT在短上下文时表现超过了Transformer和Mamba,且能更好利用长上下文。隐藏状态模型可以是任意模型,可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。
完成下面两步后,将自动完成登录并继续当前操作。