重新审视自动语音识别性能中的种族差异:源自区分干扰的作用
📝
内容提要
现在广泛使用基于大量音频数据训练的自动语音识别(ASR)模型将语音转换为书面文本,在视频字幕到医疗保健等各个领域中使用自动助手。本研究旨在通过研究当前最先进的基于神经网络的 ASR 系统(Whisper,OpenAI)在 CORAAL 数据集上的性能来了解康托语方言对 ASR 准确性的影响,并发现了方言差异和录音质量对 ASR 准确性的重要性。这些发现凸显了在研究神经 ASR...
➡️