基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统
原文中文,约200字,阅读约需1分钟。发表于: 。该研究致力于开发一种自动非侵入式系统,用于预测语音可懂度水平,研究结果显示采用长期短期记忆(LSTM)网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制,能够确定任务中更为相关的帧,从而优于基于支持向量机(SVM)和手工特征、基于均值池化的 LSTM 系统。
本文提出了一种基于LSTM网络的端到端视觉语音识别系统,取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7%,在CUAVE数据库上比其他类似方法的系统提高了1.5%。