基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于LSTM网络的端到端视觉语音识别系统,取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7%,在CUAVE数据库上比其他类似方法的系统提高了1.5%。

🎯

关键要点

  • 提出了一种基于LSTM网络的端到端视觉语音识别系统。

  • 系统同时学习从像素直接提取特征和分类。

  • 在OuluVS2数据库上比基准提高了9.7%。

  • 在CUAVE数据库上比其他类似方法的系统提高了1.5%。

  • 系统包括从口和差异图像中提取特征的两个流。

  • 通过双向LSTM(BLSTM)融合这两个流。

➡️

继续阅读