面向音频 - 视觉零样本学习的脉冲塔克融合变压器

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

Spikformer结合自注意力机制和脉冲神经网络(SNNs),将Transformer架构应用于SNN设计。它引入了Spike自注意力(SSA)模块,在许多数据集上实现了最先进的性能。通过用非参数线性变换替换SSA,Spikformer可以加速,降低时间复杂度。大量实验表明,与SSA相比,线性变换具有更高的准确性和更快的速度。

🎯

关键要点

  • Spikformer结合自注意力机制和脉冲神经网络(SNNs),应用于SNN设计。

  • 引入脉冲自注意力(SSA)模块,使用脉冲形式的查询、键和值来混合稀疏视觉特征。

  • 在多个数据集上,Spikformer展示了最先进的性能。

  • 通过将SSA替换为非参数化的线性变换(LT),Spikformer可以加速并降低时间复杂度。

  • LT如傅里叶和小波变换用于混合脉冲序列,将时间复杂度从二次降低为对数线性。

  • 在图像分类方面进行了广泛实验,结果显示LT的Spikformer在神经形态学数据集上实现了更高的Top-1准确率。

  • LT的Spikformer在静态数据集上实现了可比较的Top-1准确率。

  • 与需要可学习参数的SSA相比,LT的Spikformer实现了29%至51%的训练速度提升和61%至70%的推断速度提升。

  • LT的Spikformer还减少了4%至26%的内存使用量。

➡️

继续阅读