StyleSpeech:基于 VQ-VAE 的自监督风格增强与情感化有声书语音合成预训练

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了利用变分自编码器(VAE)实现语音合成模型的端到端学习,通过无监督方式学习发音风格的潜在表示。VAE学习到的风格表示具有解缠、缩放和组合等特性,使得风格控制变得容易。通过VAE的识别网络推断出风格表示,然后将其馈入TTS网络来引导语音合成中的风格,实现风格转移。采用多种技术避免KL散度崩溃。该模型在风格控制上表现良好,并在风格转移的ABX偏好测试中优于全局风格令牌(GST)模型。

🎯

关键要点

  • 利用变分自编码器(VAE)实现语音合成模型的端到端学习。
  • 无监督方式学习发音风格的潜在表示。
  • VAE学习到的风格表示具有解缠、缩放和组合等特性。
  • 通过VAE的识别网络推断风格表示,馈入TTS网络实现风格转移。
  • 采用多种技术避免KL散度崩溃。
  • 模型在风格控制上表现良好,优于全局风格令牌(GST)模型。
➡️

继续阅读