VALL-E 2是最新的神经编解码模型,实现了人类水平的文本到语音合成,并引入了重复感知采样和编解码编组建模。实验结果表明VALL-E 2在语音鲁棒性、自然程度和说话者相似性方面超过了之前的系统,在LibriSpeech和VCTK数据集上取得了人类水平的合成效果,具有潜在应用价值。
完成下面两步后,将自动完成登录并继续当前操作。