单声道语音增强的脉冲结构状态空间模型

原文约300字,阅读约需1分钟。发表于:

使用 Spiking Structured State Space Model(Spiking-S4)可以高效地从长时间语音序列中提取干净的语音,该方法将 Spiking Neural Networks(SNN)的能效与 Structured State Space Models(S4)的长程序列建模能力相结合,具有较少的计算资源要求,与现有的人工神经网络(ANN)方法相媲美。

本文介绍了一种新的多头状态空间架构(MH-SSM),用于处理序列数据。该架构在LibriSpeech语音识别数据集上表现出色,无需外部语言模型,实现了最先进的性能。

相关推荐 去reddit讨论