突破标记障碍:BERT 进行高效长文本分类的分块和卷积

原文约400字,阅读约需1分钟。发表于:

本文提出了一种相对简单的对原有 BERT 模型的扩展方法,称为 ChunkBERT,它可以允许在任意长文本上进行预训练模型的微调和推理,实验证明使用 ChunkBERT 方法微调的 BERT 模型在长文本分类任务上表现一致,并且仅占用原始内存的一小部分(6.25%)。

该文介绍了一种简单的框架,使预训练Transformer能够处理更长的序列,同时计算和内存成本与输入序列长度线性增长。通过在编码步骤中对块间信息进行对齐,提取块间语义信息。实验结果表明,该方法在长文本摘要和阅读理解任务上取得了有效的改进。

卷积 双重更新方案 块间信息对齐 长文本摘要 阅读理解 预训练Transformer
突破标记障碍:BERT 进行高效长文本分类的分块和卷积
相关推荐 去reddit讨论