自动重音标注和俄语文本转录的算法

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文研究了无监督文本到语音合成技术在改进口音语音识别中的应用。通过少量口音数据和伪标签生成合成语音,与无口音数据结合用于训练语音识别模型。实验表明,使用合成口音数据微调的Wav2vec2.0模型字错误率降低了6.1%。

🎯

关键要点

  • 本文研究无监督文本到语音合成技术在口音语音识别中的应用。
  • 使用少量带有口音的训练数据和伪标签进行无监督训练的语音合成系统。
  • 合成的带有口音的语音数据与无口音数据结合,用于训练自动语音识别系统。
  • 实验使用Wav2vec2.0模型进行自动语音识别,基于大量无监督带有口音语音数据进行预训练。
  • 用于训练的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库。
  • 评估语料库为爱丁堡国际英语口音的自发性对话语音。
  • 实验结果显示,合成带有口音的语音数据微调Wav2vec2.0模型,相较于无口音数据,字错误率降低了6.1%。
➡️

继续阅读