基于高斯分布输入的自然稀疏注意力
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过结合局部敏感哈希和核特征映射,提出了Scatterbrain方法,用于统一稀疏Attention和低秩Attention,实现精确和高效的逼近。在图像生成和预训练T2T-ViT模型中,Scatterbrain的误差比基线低2.1倍。在T2T Vision Transformer模型中,即使没有微调,Scatterbrain也可以减少98%的注意力内存,准确率只下降1%。对于语言建模和长距任务,相比稀疏或低秩Transformers,Scatterbrain具有更高的困惑度和平均准确率。
🎯
关键要点
- 结合局部敏感哈希和核特征映射提出Scatterbrain方法。
- Scatterbrain用于统一稀疏Attention和低秩Attention,实现精确和高效的逼近。
- 在BigGAN图像生成和预训练T2T-ViT模型中,Scatterbrain的误差比基线低2.1倍。
- 在T2T Vision Transformer模型中,Scatterbrain无需微调即可减少98%的注意力内存,准确率仅下降1%。
- 对于语言建模和长距任务,Scatterbrain相比稀疏或低秩Transformers具有更高的困惑度和平均准确率。
➡️