方向性补丁交互:快速收敛与风格时间建模的文本到语音转换

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了DEX-TTS,一种基于扩散的表达性语音合成方法,用于增强语音合成的风格表达能力。DEX-TTS在英语多说话人和情感多说话人数据集上表现出色。

🎯

关键要点

  • 本研究提出了DEX-TTS,一种基于扩散的表达性语音合成方法。
  • DEX-TTS旨在增强语音合成的风格表达能力。
  • 该方法在英语多说话人和情感多说话人数据集上表现出色。
  • DEX-TTS基于通用的扩散语音合成框架,包括编码器和适配器。
  • 关键创新在于将风格区分为时不变和时变两个类别,以实现有效的风格提取。
  • 设计了高泛化能力的编码器和适配器。
  • 引入了重叠的patchify和卷积频率patch嵌入策略,以改进基于DiT的扩散网络用于TTS。
  • DEX-TTS在客观和主观评估方面取得了优异的性能,无需依赖预训练策略。
  • 与单说话人数据集的一般TTS比较结果验证了增强的扩散骨干的有效性。
➡️

继续阅读