本文提出了一种端到端的多通道说话人归属自动语音识别系统(MC-SA-ASR),结合了Conformer编码器和Transformer解码器。在LibriSpeech数据集上,该系统的词错误率比其他方法降低了12%至16%。研究还探讨了不同输入特征对ASR性能的影响,并在AMI语料库中验证了其在真实多通道会议转录中的有效性。
该研究提出了一种端到端的多通道说话人归属自动语音识别系统,结合了基于 Conformer 的编码器和基于说话人归属的 Transformer 解码器。该模型在语音识别中表现出色,尤其是在多通道会议转录中。研究还探讨了不同输入特征对ASR性能的影响。
完成下面两步后,将自动完成登录并继续当前操作。