图卷积丰富了 Transformer 中的自注意力
原文中文,约200字,阅读约需1分钟。发表于: 。用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题,提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。
本文介绍了两个新的模块:Grouped Self-Attention和Compressed Cross-Attention,能够实现序列长度为$l$的$O(l)$的计算复杂度,同时捕捉局部和全局信息。实验结果表明,这些模块在预测时间序列数据时能够降低计算复杂度,并且性能优于现有方法。