转换与发声:最小监督下的零样本口音转换
原文中文,约500字,阅读约需1分钟。发表于: 。本研究解决了口音转换中平行数据资源匮乏的问题,提出了一种两阶段的生成框架“转换与发声”,该框架通过语义标记进行转换,并利用目标口音领域的生成模型进行语音合成,从而降低了对平行数据的需求。实验表明,该方法在口音相似性和语音质量上达到了最先进的表现,且仅需15分钟的弱平行数据,展现出良好的适应性,能够扩展到其他低资源数据的口音转换。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的语音数据进行微调可以显著降低相对字错误率6.1%。