小红花·文摘

本文验证了一种基于文本可预测性的模型方法，用于衡量文本可预测性对识别器的影响，并得到衡量值$k$。作者证明Wav2Vec 2.0模型比混合ASR模型更好地利用文本上下文，并阐明了标准ASR系统在非洲裔美国英语上表现不佳的原因。作者指出声学-语音模型的失败是主要原因，并展示了如何使用该方法诊断和提高ASR。