本研究探讨了语音到文本翻译(S2TT)系统如何利用韵律信息,并提出了评估方法和基准ContraProST。结果表明,端到端系统在韵律翻译方面优于传统系统,但韵律信号对翻译质量的提升有限。
FBK在IWSLT 2024翻译评估竞赛中使用SimulSeamless方法进行语音到文本翻译,取得了良好的结果。该方法使用交叉注意力SimulST策略,在不重新训练或调整底层模型的情况下实现了良好的效果。该方法覆盖了超过143种源语言和200种目标语言。
本研究通过增强语料库,对语音到文本翻译进行了端到端研究,实验结果表明可以训练出高效的语音转换模型。提供语料库,希望未来研究能挑战基线模型。
完成下面两步后,将自动完成登录并继续当前操作。