跨方言语音合成中的音调重音语言结合多方言音素级BERT

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。

🎯

关键要点

  • 研究探讨无监督文本到语音合成作为数据增强方法。
  • 目标是改进口音语音识别的应用。
  • 使用少量带有口音的训练数据和伪标签进行无监督训练。
  • 合成的带有口音的语音数据与无口音数据结合,用于训练自动语音识别系统。
  • 实验使用Wav2vec2.0模型的自监督学习框架进行自动语音识别实验。
  • 带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库。
  • 评估语料库为爱丁堡国际英语口音的自发性对话语音。
  • 实验结果显示,合成带有口音的语音数据可减小6.1%的相对字错误率。
➡️

继续阅读