小红花·文摘

该论文介绍了一种名为XR-Transformer的新递归方法，用于加速transformer模型在大标签空间上的微调过程。该方法在公共Amazon-3M数据集上取得了较快的训练速度，并将Precision@1从51％提高到54％，成为目前基于transformer的XMC模型中的最新最佳结果之一。