基于掩蔽音频标记建模和语义知识蒸馏的单阶段文本到语音合成
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了语音合成中由双阶段方法带来的复杂性问题,提出了一种语义知识蒸馏的新方法,能够在单阶段实现高质量的语音生成。研究表明,尽管双阶段系统在可懂性上仍占优势,但新模型在语音质量和说话人相似性方面有显著提升,展示了单阶段文本到语音合成的高效与高质量潜力。
本文介绍了一种新型的文本转语音(TTS)框架,使用神经推导器进行语义标记预测和语音生成,实现了稳健高效的对齐建模。该框架降低了TTS的训练复杂性,提高了语音质量和说话人相似性。同时,该方法还具有较快的推理速度和韵律控制能力。