小红花·文摘

该文提出了两种新方法，一是通过训练模型的短子序列来降低输入长度，提高困惑度和训练效率；二是提高了transformers的递归方法的效率，通过将绝对位置嵌入到查询和键中而不是嵌入到单词中，可以在保持结果优越的情况下提高计算效率。这些技术结合起来可以加速训练1.65倍，减少内存使用，并显著提高WikiText-103上的困惑度，而不会添加任何参数。

通过任务提示改进 Transformer 的长度泛化

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为XR-Transformer的新递归方法，用于加速transformer模型在大标签空间上的微调过程。该方法在公共Amazon-3M数据集上取得了较快的训练速度，并将Precision@1从51％提高到54％，成为目前基于transformer的XMC模型中的最新最佳结果之一。

MatchXML：一种高效的文本标签匹配框架用于极端多标签文本分类

BriefGPT - AI 论文速递 ·