大型语言模型在文本处理中的成功促使其应用于语音建模,但现有语音标记主要关注语言特征,忽视韵律信息,导致生成语音自然性不足。为此,我们提出一种端到端的变分方法,自动学习连续语音属性,增强语义标记,避免手动特征提取。
本研究探讨了语音到文本翻译(S2TT)系统如何利用韵律信息,并提出了评估方法和基准ContraProST。结果表明,端到端系统在韵律翻译方面优于传统系统,但韵律信号对翻译质量的提升有限。
完成下面两步后,将自动完成登录并继续当前操作。