💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

🎯

关键要点

  • WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。
  • ASR部分通过图像提示自然采集语音,录音在受试者的自然环境中进行,确保更自然的语言生成。
  • TTS部分在专业录音棚中高质量录制,确保语音一致性,使用语音平衡的脚本。
  • ASR和TTS的数据需求不同,因此WAXAL被构建为两个独立的资源。
  • ASR部分的转录文本由当地语言专家制作,当前版本包含约10%的录音转录。
  • TTS部分邀请72位社区成员参与,男女配音演员人数相等,目标是每位配音演员录制约16小时的音频。
  • WAXAL避免将语音数据视为单一类别,强调ASR和TTS流程需要不同的监督信号。
➡️

继续阅读