面向音频 - 视觉零样本学习的脉冲塔克融合变压器
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
Spikformer结合自注意力机制和脉冲神经网络(SNNs),将Transformer架构应用于SNN设计。它引入了Spike自注意力(SSA)模块,在许多数据集上实现了最先进的性能。通过用非参数线性变换替换SSA,Spikformer可以加速,降低时间复杂度。大量实验表明,与SSA相比,线性变换具有更高的准确性和更快的速度。
🎯
关键要点
-
Spikformer结合自注意力机制和脉冲神经网络(SNNs),应用于SNN设计。
-
引入脉冲自注意力(SSA)模块,使用脉冲形式的查询、键和值来混合稀疏视觉特征。
-
在多个数据集上,Spikformer展示了最先进的性能。
-
通过将SSA替换为非参数化的线性变换(LT),Spikformer可以加速并降低时间复杂度。
-
LT如傅里叶和小波变换用于混合脉冲序列,将时间复杂度从二次降低为对数线性。
-
在图像分类方面进行了广泛实验,结果显示LT的Spikformer在神经形态学数据集上实现了更高的Top-1准确率。
-
LT的Spikformer在静态数据集上实现了可比较的Top-1准确率。
-
与需要可学习参数的SSA相比,LT的Spikformer实现了29%至51%的训练速度提升和61%至70%的推断速度提升。
-
LT的Spikformer还减少了4%至26%的内存使用量。
🏷️
标签
➡️