一项研究表明,人工智能系统在理解中文言语障碍方面的表现优于人类。研究使用了133小时的语音数据,44名发言者的录音,识别错误率为16.4%,低于人类的20.45%。该数据库将公开发布。
本文研究通过单一声学模型进行多语言训练,以提升低资源语言的语音识别性能。在51种语言的测试中,多语言模型比单语言模型更有效,特别是对低资源语言,识别错误率平均减少20.9%至28.8%。这是首次在超过50种语言和16,000小时语音上进行的大规模研究。
该论文提出了一种端到端模型,用于改进拥挤嘈杂环境中特定讲话者的自动语音识别。该模型利用语音增强模块隔离讲话者声音和背景噪音,并结合ASR模块,将识别错误率从80%降低到26.4%。通过联合精调策略,该模型将WER从26.4%降低到14.5%。
完成下面两步后,将自动完成登录并继续当前操作。