本文介绍了一种新的多说话者语音识别框架,采用端到端方式整合源分离和语音识别,实验结果显示相对改进达83.1%。此外,提出了多种语音合成和翻译模型,特别在多人重叠说话和语音到语音翻译任务中表现优越。
本文探讨了Transformer模型在多说话者语音识别中的应用,实验结果显示其相对错误率显著降低。同时,提出了音频-视觉声音分离方案和基于多通道的ASR系统,均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用,展示了新架构在实时任务中的优势。
完成下面两步后,将自动完成登录并继续当前操作。