彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

一项新的研究提出了名为Test-Time Training(TTT)的新架构,用于替代Transformer模型,并在大型语言模型(LLM)上取得更好的性能。TTT通过使用机器学习模型代替RNN的隐藏状态,并通过实际梯度下降来压缩上下文,设计了新架构。实验结果表明,TTT-Linear和TTT-MLP能够匹敌或击败最强大的Transformer和Mamba架构方法。研究团队公开了代码供人们训练和测试。该研究认为,TTT层可以直接替代Transformer中的自注意力层,并具有更低的困惑度和更好的利用长上下文的能力。

🎯

关键要点

  • 研究提出了Test-Time Training(TTT)架构,旨在替代Transformer模型。
  • TTT通过机器学习模型取代RNN的隐藏状态,利用实际梯度下降压缩上下文。
  • TTT-Linear和TTT-MLP在性能上能够与最强大的Transformer和Mamba架构相匹敌或超越。
  • TTT层可以直接替代Transformer中的自注意力层,具有更低的困惑度和更好的长上下文利用能力。
  • TTT层的设计灵感来自自监督学习,能够在测试时训练模型。
  • TTT层可以集成到任何网络架构中并进行端到端优化。
  • 研究团队在TTT层的实现中采用了小批量token和双重形式以提高效率。
  • 实验结果显示,TTT-Linear和TTT-MLP在不同上下文长度下的表现优于Mamba和Transformer。
  • TTT-MLP在长上下文中表现出色,尤其是在32k上下文时。
  • 研究者使用JAX和TPU进行实验,TTT-Linear在训练速度上优于Transformer基线。
  • TTT研究的主要作者来自斯坦福大学、加州大学伯克利分校和加州大学圣迭戈分校。

延伸问答

TTT架构的主要创新是什么?

TTT架构通过使用机器学习模型替代RNN的隐藏状态,并利用实际梯度下降来压缩上下文,旨在替代Transformer模型。

TTT-Linear和TTT-MLP的性能如何?

TTT-Linear和TTT-MLP在性能上能够与最强大的Transformer和Mamba架构相匹敌或超越,尤其在长上下文中表现出色。

TTT层如何改善长上下文的处理能力?

TTT层通过新的信息压缩和模型记忆机制,能够更好地利用长上下文,表现出更低的困惑度。

TTT架构的实现中采用了哪些技术?

TTT架构采用了小批量token和双重形式的技术,以提高训练效率和速度。

TTT层可以集成到哪些网络架构中?

TTT层可以集成到任何网络架构中,并进行端到端优化,类似于RNN层和自注意力层。

TTT研究的主要作者来自哪些机构?

TTT研究的主要作者来自斯坦福大学、加州大学伯克利分校和加州大学圣迭戈分校。

➡️

继续阅读