量子位 ·

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

新架构RNN反超Transformer，将隐藏状态换成可学习的模型，称为TTT。TTT在短上下文时表现超过了Transformer和Mamba，且能更好利用长上下文。隐藏状态模型可以是任意模型，可用于压缩上下文和视频建模。TTT方法还需继续研究和努力。

🎯

关键要点

新架构RNN通过将隐藏状态换成可学习的模型TTT，挑战Transformer。
TTT在短上下文表现超过Transformer和Mamba，且能更好利用长上下文。
TTT层的隐藏状态可以是任意模型，具有更强的表达能力。
TTT方法需要继续研究，尚未实现并行化。
TTT通过自监督学习将上下文压缩到隐藏状态，提升拟合和泛化能力。
TTT在32k长上下文测试中表现优于Mamba，且在速度上也有优势。
TTT方法不仅适用于语言模型，还可用于视频建模。

❓

延伸问答

TTT架构如何改变语言模型的隐藏状态？

TTT架构将RNN中的隐藏状态替换为可学习的模型，从而增强了表达能力。

TTT在短上下文和长上下文中的表现如何？

TTT在短上下文时表现超过Transformer和Mamba，且在长上下文中也能更好利用信息。

TTT方法的隐藏状态模型可以是什么？

TTT的隐藏状态模型可以是任意模型，包括线性模型、MLP、CNN等。

TTT方法在训练时的学习机制是什么？

TTT使用自监督学习将上下文压缩到隐藏状态，并在测试时为每个输入序列训练不同的参数。

TTT架构是否能够并行化？

目前TTT方法尚未实现并行化，但团队提出了mini-batch梯度下降的解决方案。

TTT方法是否适用于视频建模？

是的，TTT方法除了用于语言模型外，还适用于视频建模。

🏷️

继续阅读

知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
腾讯旗下 LightVela，提供免费一个月 Hermes，带 Kimi K2.5 模型
LightVela 是腾讯推出的 AI Agent 服务，现提供一个月的免费试用，包含 Hermes Agent 工具。用户可通过微信和QQ登录并需实名注...
【Rust日报】2026-06-06 CDC 用 Rust 模型开展埃博拉疫情情景推演
CDC使用Rust构建的传播模型预测2026年刚果和乌干达的布维加病毒病疫情。模型显示，若仅20%患者隔离，三个月内病例超过2万的概率为65%。Rust在...
Transformer压缩天赋解析：注意力机制暗藏超级计数器
Transformer模型在语言描述的简洁性上表现优异，能够用更小的模型表达复杂语言，展现出指数级和双指数级的优势。其注意力机制提高了信息处理的效率，但验...
Google Gemma 4 QAT量化压缩解析：手机上跑本地模型
Google推出的Gemma 4 QAT模型通过量化感知训练技术，将AI模型从4GB压缩至1GB，使其能够在普通手机上本地运行。这项技术提升了隐私保护和响...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...