小红花·文摘

本文提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），结合了Conformer编码器和Transformer解码器。在LibriSpeech数据集上，该系统的词错误率比其他方法降低了12%至16%。研究还探讨了不同输入特征对ASR性能的影响，并在AMI语料库中验证了其在真实多通道会议转录中的有效性。

多通道神经转录器的自监督学习

BriefGPT - AI 论文速递 ·

该研究提出了一种端到端的多通道说话人归属自动语音识别系统，结合了基于 Conformer 的编码器和基于说话人归属的 Transformer 解码器。该模型在语音识别中表现出色，尤其是在多通道会议转录中。研究还探讨了不同输入特征对ASR性能的影响。

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

BriefGPT - AI 论文速递 ·