基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析
原文中文,约400字,阅读约需1分钟。发表于: 。在这篇论文中,我们分析了 TIMIT 语音识别任务中原始波形声学模型的错误模式,对传统的音素错误率指标进行了超越。我们将音素分为三组,计算了每个广义音素类别的音素错误率,并构建了每个类别的混淆矩阵,与 Filterbank 和 Wav2vec 2.0 系统的混淆模式进行了比较。我们的原始波形声学模型采用参数化(Sinc2Net)或非参数化 CNNs 和双向 LSTMs,并在 TIMIT...
该论文分析了TIMIT语音识别任务中原始波形声学模型的错误模式,并超越了传统的音素错误率指标。研究者将音素分为三组,计算了每个广义音素类别的音素错误率,并与Filterbank和Wav2vec 2.0系统的混淆模式进行了比较。他们的原始波形声学模型在TIMIT开发/测试集上实现了13.7%/15.2%的音素错误率,超过了文献中报告的原始波形模型的音素错误率。此外,他们还研究了从WSJ进行的迁移学习对音素错误模式和混淆矩阵的影响,将音素错误率降低到了11.8%/13.7%。