本文研究表明,使用 Big Bird 嵌入方法训练的分类器在 Reddit-L2 数据集上的表现优于语言特征工程模型,证明了输入大小是一个限制因素。该方法有效且计算效率高,是未来 NLI 研究的有希望的途径。
本博客翻译自huggingface blog。 文末有惊喜 前言基于Transformer的模型已经被证明了在许多NLP任务中的价值,但这类模型的时间复杂度、内存使用复杂度都是$n^2$(n为序列长度),因此当序列长度超过常规的512时,模型对算力的要求将会大幅提高。最近的一些文章Longformer, Performer, Reformer, Clustered...
完成下面两步后,将自动完成登录并继续当前操作。