对付时间与内存受限 GPU 服务下的长文本分类的简单转换器技巧

使用 18k 新闻文章，我们研究了基于 Tokenizer 输出长度推荐使用的预训练模型，并对缩短和丰富序列的一些技巧进行了比较。我们找到在使用较少的计算资源的情况下，去除停用词同时保留标点和低频词是最佳的技巧，并能够在保持相同信息的同时获得优越性能。这些研究结果可帮助开发者在有限的资源下高效地优化模型性能。

该文章提出了两种新方法，以降低输入长度并提高语言建模的困惑度和效率。第一种方法是通过训练模型的短子序列来减少训练时间和提高困惑度。第二种方法是改进 transformers 的递归方法，通过在查询和键中嵌入绝对位置，而不是嵌入到单词中，提高计算效率。这些技术的结合可以加速训练，减少内存使用，并显著提高困惑度。

gpu 内存困惑度效率训练时间语言建模输入长度