小红花·文摘

通过分割长序列并对齐块间信息，提出了一个简单的框架，使预训练Transformer能够处理更长的序列。通过对块中的起始和结束标记嵌入进行对齐，提取块间语义信息。通过双重更新方案，将Transformer的解码器视为环境，并以下游性能指标作为奖励来评估隐藏状态选择动作。实证结果表明，取得了有效的改进。