促进的歌唱声音合成:通过自然语言提示实现可控
原文中文,约400字,阅读约需1分钟。发表于: 。提供了一种新的歌声合成方法 Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
本文介绍了一种通过大规模数据集训练的文本到语音模型,展示了出色的语境学习能力和自然度。作者提出了一种可扩展的方法来标注说话人身份、风格和录音条件,并将其应用于一个45k小时的数据集上。实验结果表明,该模型在各种条件下都表现出色。