本研究提出层集成记忆(LIMe)方法,解决了标准变压器模型因仅依赖前一层表示而导致的性能问题。LIMe通过访问早期层的隐藏状态,显著提升了多种架构和任务的模型性能。
完成下面两步后,将自动完成登录并继续当前操作。