端到端多通道说话人归属 ASR:说话人指导解码器与输入特征分析
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种端到端的多通道说话人归属自动语音识别系统(MC-SA-ASR),它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知,这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech...
该研究提出了一种端到端的多通道说话人归属自动语音识别系统,结合了基于 Conformer 的编码器和基于说话人归属的 Transformer 解码器。该模型在语音识别中表现出色,尤其是在多通道会议转录中。研究还探讨了不同输入特征对ASR性能的影响。