分割、对齐、选择:一种用于 Transformer 的简单长序列处理方法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过分割长序列并对齐块间信息,提出了一个简单的框架,使预训练Transformer能够处理更长的序列。通过对块中的起始和结束标记嵌入进行对齐,提取块间语义信息。通过双重更新方案,将Transformer的解码器视为环境,并以下游性能指标作为奖励来评估隐藏状态选择动作。实证结果表明,取得了有效的改进。
🎯
关键要点
- 提出了一个简单的框架,使预训练Transformer能够处理更长的序列。
- 通过分割长序列为块并对块间信息进行对齐,计算和内存成本与输入序列长度线性增长。
- 对块中的起始和结束标记嵌入进行对齐,以提取块间语义信息。
- 设计了一个受强化学习启发的双重更新方案,将Transformer的解码器视为环境。
- 使用下游性能指标作为奖励来评估隐藏状态选择动作。
- 在长文本摘要和阅读理解任务上取得了有效的改进。
🏷️
标签
➡️