本文介绍了一种基于面部图像的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。
完成下面两步后,将自动完成登录并继续当前操作。