多模式自动韵律标注与对比预训练的 SSWP
原文中文,约300字,阅读约需1分钟。发表于: 。在表达性文本转语音(TTS)领域中,显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程,通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
本论文提出了一个新颖的两阶段自动注释流程,通过对比的文本-语音空间进行预训练来增强从联合文本-语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。