小红花·文摘

本文介绍了一种基于面部图像的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。