单声道语音增强的脉冲结构状态空间模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的多头状态空间架构(MH-SSM),用于处理序列数据。该架构在LibriSpeech语音识别数据集上表现出色,无需外部语言模型,实现了最先进的性能。
🎯
关键要点
- 提出了一种新的多头状态空间架构(MH-SSM),具有特殊门控机制。
- MH-SSM可以作为多头注意力在转换器编码器中的替代品。
- MH-SSM在处理序列数据时优于传统的转换器转录器。
- 在LibriSpeech语音识别数据集上,MH-SSM显著提高了性能。
- 将MH-SSM层与转换器块结合,形成Stateformer。
- Stateformer在LibriSpeech任务中实现了最先进的性能,无需外部语言模型。
- 开发和测试集上的字错率分别为1.76%/4.37%和1.91%/4.36%。
🏷️
标签
➡️