该文提出了两种新方法,一是通过训练模型的短子序列来降低输入长度,提高困惑度和训练效率;二是提高了transformers的递归方法的效率,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍,减少内存使用,并显著提高WikiText-103上的困惑度,而不会添加任何参数。
完成下面两步后,将自动完成登录并继续当前操作。