💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

一项新的研究提出了名为Test-Time Training(TTT)的新架构,用于替代Transformer模型,并在大型语言模型(LLM)上取得更好的性能。TTT通过使用机器学习模型代替RNN的隐藏状态,并通过实际梯度下降来压缩上下文,设计了新架构。实验结果表明,TTT-Linear和TTT-MLP能够匹敌或击败最强大的Transformer和Mamba架构方法。研究团队公开了代码供人们训练和测试。该研究认为,TTT层可以直接替代Transformer中的自注意力层,并具有更低的困惑度和更好的利用长上下文的能力。

🎯

关键要点

  • 研究提出了Test-Time Training(TTT)架构,旨在替代Transformer模型。
  • TTT通过机器学习模型取代RNN的隐藏状态,利用实际梯度下降压缩上下文。
  • TTT-Linear和TTT-MLP在性能上能够与最强大的Transformer和Mamba架构相匹敌或超越。
  • TTT层可以直接替代Transformer中的自注意力层,具有更低的困惑度和更好的长上下文利用能力。
  • TTT层的设计灵感来自自监督学习,能够在测试时训练模型。
  • TTT层可以集成到任何网络架构中并进行端到端优化。
  • 研究团队在TTT层的实现中采用了小批量token和双重形式以提高效率。
  • 实验结果显示,TTT-Linear和TTT-MLP在不同上下文长度下的表现优于Mamba和Transformer。
  • TTT-MLP在长上下文中表现出色,尤其是在32k上下文时。
  • 研究者使用JAX和TPU进行实验,TTT-Linear在训练速度上优于Transformer基线。
  • TTT研究的主要作者来自斯坦福大学、加州大学伯克利分校和加州大学圣迭戈分校。
➡️

继续阅读