SPION: 基于卷积漫延的 Transformer 分层稀疏训练

我们提出了一种新颖的 Transformer 稀疏化方案，通过整合卷积滤波器和泛洪填充方法，高效捕捉自注意操作中的逐层稀疏模式，从而在 Transformer 的训练过程中降低计算复杂度和内存占用，实现了超过现有稀疏 Transformer 模型的 3.08 倍加速，并具有更好的评估质量。

该文介绍了一种基于稀疏和二元权重变换器的轻量级模型，能够在多变量时间序列问题上取得与稠密浮点变换器相当的准确性。该模型在分类、异常检测和单步预测三个时间序列学习任务上表现良好，并通过两种修改减少了注意力机制的计算复杂度，从而大大减少了变换器中非零操作的数量。

transformer 二元权重变换器准确性卷积时间序列稀疏计算复杂度