多模式自动韵律标注与对比预训练的 SSWP
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本论文提出了一个新颖的两阶段自动注释流程,通过对比的文本-语音空间进行预训练来增强从联合文本-语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
🎯
关键要点
- 在表达性文本转语音(TTS)领域中,显式的语调边界提升了合成语音的自然度和可控性。
- 提出了一个新颖的两阶段自动注释流程。
- 通过对比的文本-语音空间进行预训练,增强了从联合文本-语音空间中提取的语调空间。
- 构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异。
- 该模型达到了最先进的性能水平,并在不同数据量的测试中展现出显著的鲁棒性。
➡️