本研究定量分析了自动语音识别系统和人类转录员在转录过程中的风格差异,特别是在非洲裔美国英语中的表现。研究探讨了逐字特征和AAE形态句法特征的相互作用,揭示了人类转录员对ASR输出的影响,推动了这些语言变体在ASR评估中的理解。
基于大型语言模型的错误校正技术对于提高自动语音识别系统性能至关重要。本文提出两个准则确定错误校正训练数据质量,并通过保守数据筛选解决低质量错误校正数据导致模型脆弱问题。在挑战性领域外设置中显著减少过度校正,提高自动语音识别结果准确性和质量。
本文揭示了全局对抗音频扰动的存在,通过对自动语音识别系统的信号进行误转录。提出了一种算法来查找单个几乎不可感知的扰动,将其添加到任意语音信号中,欺骗语音识别模型。实验证明,该技术可用于最新的自动语音识别系统。同时,在未参与训练的模型上也有广泛应用。
该研究提出了一种改进自动语音识别系统性能的方案,通过修正参考转录和改变评分方法,商业ASR系统的错误率可以低于5%,研究系统的表现记录下降至2.3%。研究还探索了计算oracle WER的方法,并比较了不同的表示方法。最终,使用密集网络和添加字典外单词的方法实现了0.18%的oracle WER。
本文介绍了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上进行了模型测试。
本文提出了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。
完成下面两步后,将自动完成登录并继续当前操作。