关于纯合成训练数据对不同自动语音识别体系结构的影响

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的合成语音数据进行微调可以显著降低字错误率。

🎯

关键要点

  • 研究探讨无监督文本到语音合成作为数据增强方法。
  • 目标是改进口音语音识别的应用。
  • 使用少量带有口音的训练数据和伪标签进行无监督训练。
  • 合成的带有口音的语音数据与无口音语音数据结合用于训练自动语音识别系统。
  • 实验使用了预训练的Wav2vec2.0模型进行自动语音识别实验。
  • 训练数据来自L2-ARCTIC和Britsh Isles语料库,评估数据来自爱丁堡国际英语口音的自发性对话语音。
  • 实验结果显示,合成的带有口音的语音数据微调Wav2vec2.0模型可减小6.1%的字错误率。
➡️

继续阅读