一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

TTT是一个新的模型,旨在将长上下文压缩为固定大小的隐藏状态。与RNN不同,TTT能够有效地捕捉标记之间的底层结构和关系。TTT使用自监督学习将历史上下文压缩为隐藏状态,以用于预测。该模型通过基于自监督损失更新权重进行训练。TTT在压缩长上下文的同时保持了效率和质量,展现了有希望的结果。

🎯

关键要点

  • TTT是一个新的模型,旨在将长上下文压缩为固定大小的隐藏状态。
  • TTT能够有效捕捉标记之间的底层结构和关系,克服了RNN在长上下文中的局限性。
  • TTT使用自监督学习将历史上下文压缩为隐藏状态,以用于预测。
  • TTT通过基于自监督损失更新权重进行训练,保持了效率和质量。
  • RNN在处理长上下文时面临困难,因为其隐藏状态的表达能力有限。
  • TTT的核心方法是通过自监督学习将历史上下文压缩为隐藏状态。
  • TTT的隐藏状态等同于模型的权重,可以是线性模型或小型神经网络。
  • 输出token是对输入的预测,更新规则基于自监督损失进行梯度下降。
➡️

继续阅读