转换与发声:最小监督下的零样本口音转换

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的语音数据进行微调可以显著降低相对字错误率6.1%。

🎯

关键要点

  • 研究探讨无监督文本到语音合成作为数据增强方法。

  • 目标是改进口音语音识别的应用。

  • 使用少量带有口音的训练数据和伪标签进行无监督训练。

  • 合成的带有口音的语音数据与无口音语音数据结合用于训练自动语音识别系统。

  • 实验使用Wav2vec2.0模型的自监督学习框架进行自动语音识别实验。

  • 训练数据来自L2-ARCTIC和Britsh Isles语料库,评估数据来自爱丁堡国际英语口音的自发性对话语音。

  • 实验结果显示,合成的带有口音的语音数据微调Wav2vec2.0模型可降低6.1%相对字错误率。

➡️

继续阅读