图卷积丰富了 Transformer 中的自注意力
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了两个新的模块:Grouped Self-Attention和Compressed Cross-Attention,能够实现序列长度为$l$的$O(l)$的计算复杂度,同时捕捉局部和全局信息。实验结果表明,这些模块在预测时间序列数据时能够降低计算复杂度,并且性能优于现有方法。
🎯
关键要点
-
提出了两个新的模块:Grouped Self-Attention 和 Compressed Cross-Attention。
-
这两个模块在小超参数限制下实现序列长度为$l$的$O(l)$的计算空间和时间复杂度。
-
模块能够捕捉局部信息的同时考虑全局信息。
-
实验结果表明,预测时间序列数据时,模型降低了计算复杂度。
-
模型性能可与现有方法相当甚至更好。
➡️