小红花·文摘

该文提出了两种新方法，一是通过训练模型的短子序列来降低输入长度，提高困惑度和训练效率；二是提高了transformers的递归方法的效率，通过将绝对位置嵌入到查询和键中而不是嵌入到单词中，可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍，减少内存使用，并显著提高WikiText-103上的困惑度，而不会添加任何参数。