使用自监督表示快速估计语音和文本的错误率
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种快速的语音识别错误率估计器Fe-WER,通过自监督学习表征方法实现,在Ted-Lium3数据集上相对于e-WER3基线分别提高了19.69%和7.16%,推理速度相当于实时因子的4倍。
🎯
关键要点
-
研究提出了一种快速的语音识别错误率估计器Fe-WER。
-
Fe-WER通过自监督学习表征方法实现。
-
在Ted-Lium3数据集上,Fe-WER相对于e-WER3基线提高了19.69%和7.16%。
-
推理速度达到实时因子的4倍。
-
使用均方根误差和皮尔逊相关系数作为评估指标。
-
时长加权的估计结果与目标值的差异为10.43%和10.88%。
🏷️
标签
➡️