基于语言模型的具有可控自发行为的自发风格的文本语音合成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种通过大规模数据集训练的文本到语音模型,展示了出色的语境学习能力和自然度。作者提出了一种可扩展的方法来标注说话人身份、风格和录音条件,并将其应用到一个45k小时的数据集上进行训练。实验结果表明,该模型在各种条件下都表现出色。

🎯

关键要点

  • 通过大规模数据集训练的文本到语音模型展示了出色的语境学习能力和自然度。
  • 传统模型的说话人身份和风格控制依赖于参考语音录音,限制了创造性应用。
  • 自然语言提示提供了一种直观的控制方法,但人工标注限制了大规模数据集的扩展能力。
  • 提出了一种可扩展的方法来标注说话人身份、风格和录音条件。
  • 该方法应用于一个45k小时的数据集进行训练,显著提高了音频保真度。
  • 模型在各种口音、韵律风格、信道条件和声学条件下表现出色。
➡️

继续阅读