使用自监督表示快速估计语音和文本的错误率
原文中文,约300字,阅读约需1分钟。发表于: 。通过自监督学习表征方法,引入了一种快速的语音识别错误率估计器(Fe-WER)。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%,而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外,该估计器的推理速度相当于实时因子的 4 倍。
该研究提出了一种快速的语音识别错误率估计器Fe-WER,通过自监督学习表征方法实现,在Ted-Lium3数据集上相对于e-WER3基线分别提高了19.69%和7.16%,推理速度相当于实时因子的4倍。