线性时间变压器的潜在注意力
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于潜在向量定义注意力的方法,将传统 transformer 模型中的时间复杂度降低为随序列长度线性增长。该方法可以在双向和单向任务中使用,并实现了记忆和时间高效的循环实现。与标准 transformer 相比,该方法只需常数时间计算下一个记号。实证表现相当,允许在标准 attention 不可行的背景窗口范围内进行扩展。
🎯
关键要点
- 传统 transformer 模型中的标准 attention 机制时间复杂度随着序列长度呈二次方增长。
- 本研究提出了一种基于潜在向量定义注意力的方法,降低时间复杂度为随序列长度线性增长。
- Latte Transformer 模型可用于双向和单向任务,通过因果版本实现语言生成任务的记忆和时间高效的循环实现。
- 与标准 transformer 相比,Latte Transformer 只需常数时间计算下一个记号,时间复杂度与序列长度成线性关系。
- 该方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
🏷️
标签
➡️