Speech Wikimedia:一个包含 77 种语言的多语言语音数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

介绍了一个新的多说话人英语数据集,用于训练文本转语音模型。该数据集基于公共领域的LibriVox有声读物和Project Gutenberg文本书籍,包含10个说话者的约292小时的语音样本。数据集已公开发布。

🎯

关键要点

  • 介绍了一个新的多说话人英语数据集,用于训练文本转语音模型。
  • 该数据集基于公共领域的LibriVox有声读物和Project Gutenberg文本书籍。
  • 新数据集包含10个说话者的约292小时的语音样本,采样率为44.1 kHz。
  • 每个说话者至少有17小时的语音样本。
  • 选择高质量语音样本的标准包括至少13 kHz的信号带宽和至少32 dB的信噪比(SNR)。
  • 该数据集已公开发布。
➡️

继续阅读