小红花·文摘

该论文提出了一种端到端模型，用于改进拥挤嘈杂环境中特定讲话者的自动语音识别。该模型利用语音增强模块隔离讲话者声音和背景噪音，并结合ASR模块，将识别错误率从80％降低到26.4％。通过联合精调策略，该模型将WER从26.4％降低到14.5％。