本研究提出了一种新方法——层集成记忆(LIMe),旨在解决标准变压器模型因仅使用前一层表示而导致的性能下降问题。通过访问早期层的隐藏状态,LIMe显著提升了多种架构和任务的性能,并指明了未来研究的方向。
完成下面两步后,将自动完成登录并继续当前操作。