小红花·文摘

本文介绍了一种新的多说话者语音识别框架，采用端到端方式整合源分离和语音识别，实验结果显示相对改进达83.1%。此外，提出了多种语音合成和翻译模型，特别在多人重叠说话和语音到语音翻译任务中表现优越。