面向音频 - 视觉零样本学习的脉冲塔克融合变压器
原文中文,约600字,阅读约需2分钟。发表于: 。本研究介绍了一种用于音频 - 视觉零样本学习的新型脉冲图克融合变压器,利用脉冲神经网络和变压器提取的时间和语义信息,成功地实现了多尺度融合,在三个基准数据集上取得了最先进的性能表现。
Spikformer结合自注意力机制和脉冲神经网络(SNNs),将Transformer架构应用于SNN设计。它引入了Spike自注意力(SSA)模块,在许多数据集上实现了最先进的性能。通过用非参数线性变换替换SSA,Spikformer可以加速,降低时间复杂度。大量实验表明,与SSA相比,线性变换具有更高的准确性和更快的速度。