本文介绍了Routing Transformer和MASFormer等稀疏注意力机制的Transformer模型,旨在提高长序列处理的效率和性能。这些模型通过稀疏化注意力计算,显著降低了复杂度,并在多个基准数据集上表现优异,提升了训练速度和计算效率。
完成下面两步后,将自动完成登录并继续当前操作。