该文章介绍了Expresso数据集,用于无文字语音合成,包括朗读语音和即兴对话。作者通过表达性再合成基准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。
完成下面两步后,将自动完成登录并继续当前操作。