EXPRESSO:离散表达性语音重新合成的基准和分析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了Expresso数据集,用于无文字语音合成,包括朗读语音和即兴对话。作者通过表达性再合成基准评估了不同自我监督离散编码器的合成质量,并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。

🎯

关键要点

  • Expresso是一个高质量的表达性语音数据集,用于无文字语音合成。

  • 数据集包括朗读语音和即兴对话,使用26种自发表达的风格渲染。

  • 通过表达性再合成基准评估数据集的挑战和潜力。

  • 任务是在保持内容和风格的同时,使用低比特率单位对输入进行编码并重新合成目标语音。

  • 使用自动度量标准评估不同自我监督离散编码器的合成质量。

  • 探讨了质量、比特率和对说话人和风格的不变性之间的权衡。

  • 所有数据集、评估指标和基线模型均为开源。

➡️

继续阅读