💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。
🎯
关键要点
- WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。
- ASR部分通过图像提示自然采集语音,录音在受试者的自然环境中进行,确保更自然的语言生成。
- TTS部分在专业录音棚中高质量录制,确保语音一致性,使用语音平衡的脚本。
- ASR和TTS的数据需求不同,因此WAXAL被构建为两个独立的资源。
- ASR部分的转录文本由当地语言专家制作,当前版本包含约10%的录音转录。
- TTS部分邀请72位社区成员参与,男女配音演员人数相等,目标是每位配音演员录制约16小时的音频。
- WAXAL避免将语音数据视为单一类别,强调ASR和TTS流程需要不同的监督信号。
➡️