本研究提出了BhasaAnuvaad数据集,涵盖14种印度官方语言,提供超过44,400小时的语音数据,旨在解决自动语音翻译(AST)数据集不足的问题,并评估现有AST系统的缺陷。
本论文提出了使用自动编码说话人转换进行数据增强的方法,通过转换音频序列合成与另一位说话人类似的声音。该方法在英语到法语和英语到罗马尼亚语的自动语音翻译任务上效果更好。同时,证明了数据增强的数量和多样性的好处,并在英语到法语自动语音翻译任务上胜过一个非常强大的级联模型。该方法适用于其他语音生成和分析任务。
完成下面两步后,将自动完成登录并继续当前操作。