基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

该研究致力于开发一种自动非侵入式系统，用于预测语音可懂度水平，研究结果显示采用长期短期记忆（LSTM）网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制，能够确定任务中更为相关的帧，从而优于基于支持向量机（SVM）和手工特征、基于均值池化的 LSTM 系统。

本文提出了一种基于LSTM网络的端到端视觉语音识别系统，取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7％，在CUAVE数据库上比其他类似方法的系统提高了1.5％。

LSTM网络 OuluVS2数据库分类性能端到端视觉语音识别