机器之心 ·

彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

一项新的研究提出了名为Test-Time Training（TTT）的新架构，用于替代Transformer模型，并在大型语言模型（LLM）上取得更好的性能。TTT通过使用机器学习模型代替RNN的隐藏状态，并通过实际梯度下降来压缩上下文，设计了新架构。实验结果表明，TTT-Linear和TTT-MLP能够匹敌或击败最强大的Transformer和Mamba架构方法。研究团队公开了代码供人们训练和测试。该研究认为，TTT层可以直接替代Transformer中的自注意力层，并具有更低的困惑度和更好的利用长上下文的能力。

🎯

关键要点

研究提出了Test-Time Training（TTT）架构，旨在替代Transformer模型。
TTT通过机器学习模型取代RNN的隐藏状态，利用实际梯度下降压缩上下文。
TTT-Linear和TTT-MLP在性能上能够与最强大的Transformer和Mamba架构相匹敌或超越。
TTT层可以直接替代Transformer中的自注意力层，具有更低的困惑度和更好的长上下文利用能力。
TTT层的设计灵感来自自监督学习，能够在测试时训练模型。
TTT层可以集成到任何网络架构中并进行端到端优化。
研究团队在TTT层的实现中采用了小批量token和双重形式以提高效率。
实验结果显示，TTT-Linear和TTT-MLP在不同上下文长度下的表现优于Mamba和Transformer。
TTT-MLP在长上下文中表现出色，尤其是在32k上下文时。
研究者使用JAX和TPU进行实验，TTT-Linear在训练速度上优于Transformer基线。
TTT研究的主要作者来自斯坦福大学、加州大学伯克利分校和加州大学圣迭戈分校。

❓

延伸问答

TTT架构的主要创新是什么？

TTT架构通过使用机器学习模型替代RNN的隐藏状态，并利用实际梯度下降来压缩上下文，旨在替代Transformer模型。

TTT-Linear和TTT-MLP的性能如何？

TTT-Linear和TTT-MLP在性能上能够与最强大的Transformer和Mamba架构相匹敌或超越，尤其在长上下文中表现出色。

TTT层如何改善长上下文的处理能力？

TTT层通过新的信息压缩和模型记忆机制，能够更好地利用长上下文，表现出更低的困惑度。

TTT架构的实现中采用了哪些技术？

TTT架构采用了小批量token和双重形式的技术，以提高训练效率和速度。

TTT层可以集成到哪些网络架构中？

TTT层可以集成到任何网络架构中，并进行端到端优化，类似于RNN层和自注意力层。

TTT研究的主要作者来自哪些机构？

TTT研究的主要作者来自斯坦福大学、加州大学伯克利分校和加州大学圣迭戈分校。

🏷️