bigbird长文本预训练模型介绍
📝
内容提要
本博客翻译自huggingface blog。 文末有惊喜 前言基于Transformer的模型已经被证明了在许多NLP任务中的价值,但这类模型的时间复杂度、内存使用复杂度都是$n^2$(n为序列长度),因此当序列长度超过常规的512时,模型对算力的要求将会大幅提高。最近的一些文章Longformer, Performer, Reformer, Clustered...
➡️