基于高斯分布输入的自然稀疏注意力

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过结合局部敏感哈希和核特征映射,提出了Scatterbrain方法,用于统一稀疏Attention和低秩Attention,实现精确和高效的逼近。在图像生成和预训练T2T-ViT模型中,Scatterbrain的误差比基线低2.1倍。在T2T Vision Transformer模型中,即使没有微调,Scatterbrain也可以减少98%的注意力内存,准确率只下降1%。对于语言建模和长距任务,相比稀疏或低秩Transformers,Scatterbrain具有更高的困惑度和平均准确率。

🎯

关键要点

  • 结合局部敏感哈希和核特征映射提出Scatterbrain方法。
  • Scatterbrain用于统一稀疏Attention和低秩Attention,实现精确和高效的逼近。
  • 在BigGAN图像生成和预训练T2T-ViT模型中,Scatterbrain的误差比基线低2.1倍。
  • 在T2T Vision Transformer模型中,Scatterbrain无需微调即可减少98%的注意力内存,准确率仅下降1%。
  • 对于语言建模和长距任务,Scatterbrain相比稀疏或低秩Transformers具有更高的困惑度和平均准确率。
➡️

继续阅读