基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文分析了TIMIT语音识别任务中原始波形声学模型的错误模式,并超越了传统的音素错误率指标。研究者将音素分为三组,计算了每个广义音素类别的音素错误率,并与Filterbank和Wav2vec 2.0系统的混淆模式进行了比较。他们的原始波形声学模型在TIMIT开发/测试集上实现了13.7%/15.2%的音素错误率,超过了文献中报告的原始波形模型的音素错误率。此外,他们还研究了从WSJ进行的迁移学习对音素错误模式和混淆矩阵的影响,将音素错误率降低到了11.8%/13.7%。

🎯

关键要点

  • 该论文分析了TIMIT语音识别任务中原始波形声学模型的错误模式。
  • 研究者超越了传统的音素错误率指标,将音素分为三组并计算每个广义音素类别的音素错误率。
  • 构建了每个类别的混淆矩阵,并与Filterbank和Wav2vec 2.0系统的混淆模式进行了比较。
  • 原始波形声学模型在TIMIT开发/测试集上实现了13.7%/15.2%的音素错误率,超过了文献中报告的原始波形模型的音素错误率。
  • 研究了从WSJ进行的迁移学习对音素错误模式和混淆矩阵的影响,音素错误率降低到了11.8%/13.7%。
➡️

继续阅读