小红花·文摘

本文介绍了Routing Transformer和MASFormer等稀疏注意力机制的Transformer模型，旨在提高长序列处理的效率和性能。这些模型通过稀疏化注意力计算，显著降低了复杂度，并在多个基准数据集上表现优异，提升了训练速度和计算效率。