视觉语音:在文本到语音合成中通过视觉上下文增强韵律
📝
内容提要
本研究解决了文本到语音合成中难以生成多样化韵律输出的问题,通过将视觉特征融入韵律预测,提出了一种新模型VisualSpeech。实验结果表明,视觉特征为韵律生成提供了超出文本输入的有价值线索,显著提升了合成语音的自然性和准确性。
➡️
本研究解决了文本到语音合成中难以生成多样化韵律输出的问题,通过将视觉特征融入韵律预测,提出了一种新模型VisualSpeech。实验结果表明,视觉特征为韵律生成提供了超出文本输入的有价值线索,显著提升了合成语音的自然性和准确性。