基于 CTC 的语音识别的单模聚合
原文中文,约300字,阅读约需1分钟。发表于: 。该论文提出了一种非自回归自动语音识别方法,使用一种单模态聚合(UMA)来分割和整合属于同一文本令牌的特征帧,从而学习更好的文本令牌特征表示。与常规 CTC 相比,该方法学习到更好的特征表示,并缩短了序列长度,从而降低了识别错误和计算复杂度。三个普通话数据集上的实验证明 UMA 在非自回归方法中表现出优越或可比较的性能,例如自条件 CTC。此外,通过将自条件 CTC 集成到该方法中,性能可以进一步显著提高。
该论文提出了一种使用UMA的非自回归自动语音识别方法,可以缩短序列长度,降低识别错误和计算复杂度。实验证明UMA在非自回归方法中表现出优越或可比较的性能,并且通过将自条件CTC集成到该方法中,性能可以进一步提高。