图卷积丰富了 Transformer 中的自注意力

用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题，提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。

本文介绍了两个新的模块：Grouped Self-Attention和Compressed Cross-Attention，能够实现序列长度为$l$的$O(l)$的计算复杂度，同时捕捉局部和全局信息。实验结果表明，这些模块在预测时间序列数据时能够降低计算复杂度，并且性能优于现有方法。