VALL-E R:鲁棒高效的零射文本语音合成方法:单调对齐
原文中文,约200字,阅读约需1分钟。发表于: 。利用离散神经音频编解码器,我们提出了 VALL-E R,一个强大且高效的零 - shot 语音合成系统,通过引入音素单调对齐策略和编解码器合并方法,提高了音素的可控性,加快了解码速度,并取得了接近真实语音的字词错误率和超过 60% 的推理时间减少。
VALL-E 2是最新的神经编解码模型,实现了人类水平的文本到语音合成,并引入了重复感知采样和编解码编组建模。实验结果表明VALL-E 2在语音鲁棒性、自然程度和说话者相似性方面超过了之前的系统,在LibriSpeech和VCTK数据集上取得了人类水平的合成效果,具有潜在应用价值。