基于令牌加权的 RNN-T 模型用于学习有缺陷的数据
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了对RNN的训练的多个方面,关注增强语音频谱的RNN,提出了两种学习目标,通过客观质量和可懂度指标进行评估,并与其他方法进行比较。研究了特征归一化和批次序列长度的变化对增强语音质量的影响。展示了所提出的方法和最先进的实时RNN方法的主观评分。
🎯
关键要点
- 本文研究了RNN的训练对实时单通道语音增强的影响。
- 关注增强短时语音频谱的RNN,采用单帧输入单帧输出的框架。
- 提出了两种基于均方误差的学习目标,分别控制音频失真和噪声降低的重要性。
- 通过客观质量和可懂度指标评估所提出的方法,并与其他在线方法进行比较。
- 研究了特征归一化和批次序列长度变化对增强语音质量的影响。
- 展示了所提出的方法与最先进的实时RNN方法的主观评分。
➡️