使用 Delta 规则并行化线性变换器来处理序列长度

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于潜在向量定义注意力的方法,将传统transformer模型的时间复杂度降低为随序列长度线性增长。该模型适用于双向和单向任务,并且在推理过程中能够高效地进行语言生成任务的记忆和时间循环实现。与标准transformer相比,该方法只需常数时间计算下一个记号,实证表现相当,且允许在标准attention不可行的背景窗口范围内进行扩展。

🎯

关键要点

  • 传统的 transformer 模型中,标准的 attention 机制时间复杂度随序列长度呈二次方增长。
  • 本研究提出了一种基于潜在向量定义注意力的方法,降低时间复杂度为随序列长度线性增长。
  • “Latte Transformer” 模型适用于双向和单向任务,能够高效进行语言生成任务的记忆和时间循环实现。
  • 与标准 transformer 相比,Latte Transformer 只需常数时间计算下一个记号,时间复杂度与序列长度成线性关系。
  • 该方法的实证表现与标准 attention 相当,并允许在标准 attention 不可行的背景窗口范围内进行扩展。
➡️

继续阅读