小红花·文摘

本文介绍了一种通过大规模数据集训练的文本到语音模型，展示了出色的语境学习能力和自然度。作者提出了一种可扩展的方法来标注说话人身份、风格和录音条件，并将其应用到一个45k小时的数据集上进行训练。实验结果表明，该模型在各种条件下都表现出色。