我们提出了一种端到端的多通道说话人归属自动语音识别系统(MC-SA-ASR),结合了Conformer编码器和Transformer解码器。该系统在LibriSpeech数据集上实现了12%至16%的词错误率降低,并在AMI语料库中验证了其在真实会议转录中的有效性。
当前文献关注文学小说中引文归属问题,研究了人物识别、指代消解、引文辨别和说话人归属四个子任务。通过评估最先进的模型在大量注释了核心指代和引文的文学小说数据集上,发现一个简单的连续预测模型在说话人归属任务上具有与最先进模型相当的准确性分数。
该研究提出了一种端到端的多通道说话人归属自动语音识别系统,结合了基于 Conformer 的编码器和基于说话人归属的 Transformer 解码器。该模型在语音识别中表现出色,尤其是在多通道会议转录中。研究还探讨了不同输入特征对ASR性能的影响。
完成下面两步后,将自动完成登录并继续当前操作。