一项研究表明,人工智能系统在理解中文言语障碍方面的表现优于人类。研究使用了133小时的语音数据,44名发言者的录音,识别错误率为16.4%,低于人类的20.45%。该数据库将公开发布。
该论文提出了一种端到端模型,用于改进拥挤嘈杂环境中特定讲话者的自动语音识别。该模型利用语音增强模块隔离讲话者声音和背景噪音,并结合ASR模块,将识别错误率从80%降低到26.4%。通过联合精调策略,该模型将WER从26.4%降低到14.5%。
完成下面两步后,将自动完成登录并继续当前操作。