文本到语音的神经传感器和发声器:基于语义标记预测的方法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于神经传导器的 TTS 框架,使用离散语义标记实现单调对齐约束,提高了语音质量和说话人相似度。同时,该模型展示了神经传导器在 TTS 中的潜力。

🎯

关键要点

  • 该文介绍了一种基于神经传导器的文本到语音 (TTS) 框架。
  • 使用离散语义标记实现单调对齐约束,提高语音质量和说话人相似度。
  • 模型通过神经传导器生成对齐的语义标记,使用非自回归 (NAR) 语音生成器合成语音样本。
  • 该分离框架减轻了 TTS 的训练复杂性,允许各阶段专注于不同建模任务。
  • 实验结果表明,该模型在语音质量和说话人相似度方面超过了基准模型。
  • 研究了模型的推断速度和语调可控性,展示了神经传导器在 TTS 框架中的潜力。
➡️

继续阅读