Convoifilter:一项关于进行鸡尾酒会话语音识别的案例研究
原文中文,约300字,阅读约需1分钟。发表于: 。该论文提出了一种端到端模型,旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别(ASR)。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离,并结合了 ASR 模块。通过这种方法,该模型能够将 ASR 的识别错误率(WER)从 80%降低到 26.4%。通常,由于数据要求的差异,这两个组件是独立调整的。然而,语音增强可能会引起降低 ASR...
该论文提出了一种端到端模型,用于改进拥挤嘈杂环境中特定讲话者的自动语音识别。该模型利用语音增强模块隔离讲话者声音和背景噪音,并结合ASR模块,将识别错误率从80%降低到26.4%。通过联合精调策略,该模型将WER从26.4%降低到14.5%。