通过合成音频数据进行端到端低资源语音翻译
原文中文,约300字,阅读约需1分钟。发表于: 。我们在国际口语翻译会议 (IWSLT 2024) 上描述了我们的系统提交,用于爱尔兰 - 英语语音翻译。我们基于 Whisper 构建了端到端系统,并采用了一些数据增强技术,如语音回译和噪声增强。我们研究了使用合成音频数据的影响,并讨论了几种丰富信号多样性的方法。
本文介绍了一种基于声音对齐、语言属性和翻译的数据增强方法,通过采样和翻译增强后的转录结果,训练了机器翻译系统,并在多种语言对上提高了 BLEU 分数。