SparseSwin:具有稀疏 Transformer 块的 Swin Transformer
原文中文,约500字,阅读约需1分钟。发表于: 。该论文介绍了一种使用稀疏令牌转换器的改进 Transformer 模型,命名为 SparseSwin 模型,通过减少初始令牌数量,优化了 Transformer 的使用,并在图像分类任务中取得了优于其他模型的性能(分别为 ImageNet100:86.96%,CIFAR10:97.43%,CIFAR100:85.35%)。
本文提出了一种新的循环单元 SwinLSTM,它与 Swin Transformer 块和简化版的 LSTM 相结合,用自注意力机制替代了 ConvLSTM 中的卷积结构。在多个数据集上,SwinLSTM 在时空预测任务中表现优于最先进的方法,特别在预测准确性方面展现了显著的提升。