对付时间与内存受限 GPU 服务下的长文本分类的简单转换器技巧

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章提出了两种新方法,以降低输入长度并提高语言建模的困惑度和效率。第一种方法是通过训练模型的短子序列来减少训练时间和提高困惑度。第二种方法是改进 transformers 的递归方法,通过在查询和键中嵌入绝对位置,而不是嵌入到单词中,提高计算效率。这些技术的结合可以加速训练,减少内存使用,并显著提高困惑度。

阅读原文 分享