基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了DEX-TTS模型,一种基于扩散的表达性语音合成模型,用于合成自然语音。该模型通过提取参考语音中的风格来增强风格表达能力,并设计了高泛化能力的编码器和适配器。DEX-TTS在多说话人和情感多说话人数据集上取得了出色的性能,无需预训练策略。

🎯

关键要点

  • DEX-TTS模型是一种基于扩散的表达性语音合成模型,用于合成自然语音。

  • 该模型通过提取参考语音中的风格来增强风格表达能力。

  • DEX-TTS设计了高泛化能力的编码器和适配器。

  • 模型在多说话人和情感多说话人数据集上表现出色,无需预训练策略。

  • 关键创新包括将风格区分为时不变和时变,以实现有效的风格提取。

  • 引入了重叠的patchify和卷积频率patch嵌入策略,以改进基于DiT的扩散网络用于TTS。

  • DEX-TTS在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了优异性能。

  • 对于单说话人数据集的比较结果验证了增强的扩散骨干的有效性。

➡️

继续阅读