BriefGPT - AI 论文速递 ·

语音增强的语言建模用于文本到语音合成

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文提出了一种基于扩散模型的最小监督高保真语音合成方法，增强了可控性并实现多样化韵律表达。通过层次结构预测音素级韵律特征，实验结果表明该方法在音频质量和自然性方面优于其他模型。此外，研究还探讨了基于神经机器翻译的全自动文本语音模型和数据增强方法，显著提升了非自回归TTS系统的质量。

🎯

❓

基于扩散模型的语音合成方法是一种最小监督的高保真语音合成技术，增强了可控性并实现多样化的韵律表达。

通过层次结构预测音素级韵律特征，该方法在音频质量和自然性方面优于其他模型。

该模型由非自回归向量量化变分自动编码器和自回归Transformer-NMT模型组成，在自然度方面表现优异。

数据增强方法显著提高了非自回归TTS系统的质量。

实验结果表明，该方法在音频质量和自然性方面优于基准方法。

研究提出的新方法和模型为提高语音合成的可控性和自然性提供了新的思路，可能推动未来的技术发展。

🏷️