该文介绍了一种简单的框架,使预训练Transformer能够处理更长的序列,同时计算和内存成本与输入序列长度线性增长。通过在编码步骤中对块间信息进行对齐,提取块间语义信息。实验结果表明,该方法在长文本摘要和阅读理解任务上取得了有效的改进。
通过分割长序列并对齐块间信息,提出了一个简单的框架,使预训练Transformer能够处理更长的序列。通过对块中的起始和结束标记嵌入进行对齐,提取块间语义信息。通过双重更新方案,将Transformer的解码器视为环境,并以下游性能指标作为奖励来评估隐藏状态选择动作。实证结果表明,取得了有效的改进。
完成下面两步后,将自动完成登录并继续当前操作。