图卷积丰富了 Transformer 中的自注意力

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了两个新的模块:Grouped Self-Attention和Compressed Cross-Attention,能够实现序列长度为$l$的$O(l)$的计算复杂度,同时捕捉局部和全局信息。实验结果表明,这些模块在预测时间序列数据时能够降低计算复杂度,并且性能优于现有方法。

🎯

关键要点

  • 提出了两个新的模块:Grouped Self-Attention 和 Compressed Cross-Attention。

  • 这两个模块在小超参数限制下实现序列长度为$l$的$O(l)$的计算空间和时间复杂度。

  • 模块能够捕捉局部信息的同时考虑全局信息。

  • 实验结果表明,预测时间序列数据时,模型降低了计算复杂度。

  • 模型性能可与现有方法相当甚至更好。

➡️

继续阅读