使用结构化矩阵增强的 X 转换器进行长序列时间序列预测

通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks，提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计，以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中，观察到平均性能提高了 9.45％，同时模型的大小降低了 46％。

该论文介绍了一种使用LSS Transformer进行分布式训练的新方法，能够高效训练长序列的变压器。通过融合通信和双梯度平均技术，该方法在多个GPU上提高了训练效率和减少了通信开销。实验结果显示，在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率，并在3,456个GPU上可扩展到长度达到50,112的极限序列，实现了161%的超线性并行效率和32 petaflops的吞吐量。

GPU LSS Transformer 分布式训练超线性并行效率通信开销