面向音频 - 视觉零样本学习的脉冲塔克融合变压器

本研究介绍了一种用于音频 - 视觉零样本学习的新型脉冲图克融合变压器，利用脉冲神经网络和变压器提取的时间和语义信息，成功地实现了多尺度融合，在三个基准数据集上取得了最先进的性能表现。

Spikformer结合自注意力机制和脉冲神经网络（SNNs），将Transformer架构应用于SNN设计。它引入了Spike自注意力（SSA）模块，在许多数据集上实现了最先进的性能。通过用非参数线性变换替换SSA，Spikformer可以加速，降低时间复杂度。大量实验表明，与SSA相比，线性变换具有更高的准确性和更快的速度。

Spikformer 性能线性变换脉冲神经网络自注意力