基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于LSTM网络的端到端视觉语音识别系统,取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7%,在CUAVE数据库上比其他类似方法的系统提高了1.5%。
🎯
关键要点
-
提出了一种基于LSTM网络的端到端视觉语音识别系统。
-
系统同时学习从像素直接提取特征和分类。
-
在OuluVS2数据库上比基准提高了9.7%。
-
在CUAVE数据库上比其他类似方法的系统提高了1.5%。
-
系统包括从口和差异图像中提取特征的两个流。
-
通过双向LSTM(BLSTM)融合这两个流。
🏷️
标签
➡️