本研究提出了一种新方法——层集成记忆(LIMe),旨在解决标准变压器模型因仅使用前一层表示而导致的性能下降问题。通过访问早期层的隐藏状态,LIMe显著提升了多种架构和任务的性能,并指明了未来研究的方向。
本研究提出了一种新的成对马尔可夫链(PMC)预测算法,通过引入隐藏状态,显著提升了连续值预测中的波动性预测性能,对学术界和实践领域具有重要影响。
TTT是一个新的模型,旨在将长上下文压缩为固定大小的隐藏状态。与RNN不同,TTT能够有效地捕捉标记之间的底层结构和关系。TTT使用自监督学习将历史上下文压缩为隐藏状态,以用于预测。该模型通过基于自监督损失更新权重进行训练。TTT在压缩长上下文的同时保持了效率和质量,展现了有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。