视觉语音:在文本到语音合成中通过视觉上下文增强韵律

📝

内容提要

本研究解决了文本到语音合成中难以生成多样化韵律输出的问题,通过将视觉特征融入韵律预测,提出了一种新模型VisualSpeech。实验结果表明,视觉特征为韵律生成提供了超出文本输入的有价值线索,显著提升了合成语音的自然性和准确性。

➡️

继续阅读