本论文提出了一个新颖的两阶段自动注释流程,通过对比的文本-语音空间进行预训练来增强从联合文本-语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。