结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类
原文中文,约200字,阅读约需1分钟。发表于: 。本研究提出了基于 LSTM 网络的注意力机制来预测语音可懂度级别,并探讨了使用每帧调制谱来作为输入特征以及不同的融合策略(后期融合和加权池化融合)对语音可懂度预测任务的效果,结果表明 LSTM 网络可以有效地建模调制谱序列,而后期融合和加权池化融合的策略能够提供更好的结果
我们提出了一种名为TLDNN的混合深度框架,将Transformer和LSTM相结合,通过自注意机制建模信号序列的全局相关性以增强时间依赖性的捕捉,并采用数据增强策略来提高模型对调制相关特征的鲁棒性。实验结果表明,该方法在广泛使用的数据集上取得了最先进的性能并具有显著优势。