单声道语音增强的脉冲结构状态空间模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的多头状态空间架构(MH-SSM),用于处理序列数据。该架构在LibriSpeech语音识别数据集上表现出色,无需外部语言模型,实现了最先进的性能。

🎯

关键要点

  • 提出了一种新的多头状态空间架构(MH-SSM),具有特殊门控机制。
  • MH-SSM可以作为多头注意力在转换器编码器中的替代品。
  • MH-SSM在处理序列数据时优于传统的转换器转录器。
  • 在LibriSpeech语音识别数据集上,MH-SSM显著提高了性能。
  • 将MH-SSM层与转换器块结合,形成Stateformer。
  • Stateformer在LibriSpeech任务中实现了最先进的性能,无需外部语言模型。
  • 开发和测试集上的字错率分别为1.76%/4.37%和1.91%/4.36%。
➡️

继续阅读