一项新的研究提出了名为Test-Time Training(TTT)的新架构,用于替代Transformer模型,并在大型语言模型(LLM)上取得更好的性能。TTT通过使用机器学习模型代替RNN的隐藏状态,并通过实际梯度下降来压缩上下文,设计了新架构。实验结果表明,TTT-Linear和TTT-MLP能够匹敌或击败最强大的Transformer和Mamba架构方法。研究团队公开了代码供人们训练和测试。该研究认为,TTT层可以直接替代Transformer中的自注意力层,并具有更低的困惑度和更好的利用长上下文的能力。
完成下面两步后,将自动完成登录并继续当前操作。