SPION: 基于卷积漫延的 Transformer 分层稀疏训练
该文介绍了一种基于稀疏和二元权重变换器的轻量级模型,能够在多变量时间序列问题上取得与稠密浮点变换器相当的准确性。该模型在分类、异常检测和单步预测三个时间序列学习任务上表现良好,并通过两种修改减少了注意力机制的计算复杂度,从而大大减少了变换器中非零操作的数量。
原文中文,约300字,阅读约需1分钟。
该文介绍了一种基于稀疏和二元权重变换器的轻量级模型,能够在多变量时间序列问题上取得与稠密浮点变换器相当的准确性。该模型在分类、异常检测和单步预测三个时间序列学习任务上表现良好,并通过两种修改减少了注意力机制的计算复杂度,从而大大减少了变换器中非零操作的数量。