SSHR:利用自监督层级表征进行多语言自动语音识别
原文约400字/词,阅读约需1分钟。发表于: 。通过使用自我监督学习 (SSHR) 的分层表示,我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和...
该研究提出了一种新方法来优化多语种自动语音识别,使用自我监督学习的分层表示提取相关信息,并使用自注意机制和Cross-CTC引导模型获取更多相关信息。实验结果表明该方法在多语种数据集上达到了最先进的性能。