EXPRESSO:离散表达性语音重新合成的基准和分析

原文约400字,阅读约需1分钟。发表于:

我们介绍了 Expresso,这是一个高质量的表达性语音数据集,用于无文字语音合成,其中包括使用 26 种自发表达的风格渲染的朗读语音和即兴对话。我们通过一个表达性再合成基准来说明该数据集的挑战和潜力,其中的任务是在保持内容和风格的同时,使用低比特率单位对输入进行编码并在目标语音中重新合成。我们使用自动度量标准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。

该文章介绍了Expresso数据集,用于无文字语音合成,包括朗读语音和即兴对话。作者通过表达性再合成基准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。

相关推荐 去reddit讨论