我们立足何处:乌尔都语自动语音识别模型基准评估
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了乌尔都语自动语音识别(ASR)模型性能评估的不足,提出了一种综合评估方法。研究发现,seamless-large模型在朗读语音数据集上的表现优于其他模型,而whisper-large则在会话语音数据集上表现最佳,强调了在低资源语言中开发强大的ASR系统的重要性。
本文提出了一种非破坏性的基于令牌的方法,用于计算自动语音识别中的字错误率(WER)。该方法能够解决传统计算方式在标点和大小写等方面的信息丢失问题,并能对转录错误进行更细致的分类。研究表明,该方法在多个数据集上的效果相当,并提供了用例分析和互动可视化的网络应用。