实时互动网 ·

Google AI 发布 WAXAL：用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

WAXAL是一个开放的多语言语音数据集，涵盖24种非洲语言，专为自动语音识别（ASR）和文本转语音（TTS）设计。ASR部分通过图像提示自然采集语音，TTS部分在录音棚中高质量录制，确保语音一致性。

🎯

🔎

WAXAL数据集的设计考虑了ASR和TTS的不同需求，分别采用自然环境和专业录音棚的方式进行数据采集。这种分离设计确保了在不同应用场景下的最佳性能，尤其是在处理非洲语言时，能够更好地捕捉到语言的多样性和自然性。

WAXAL的ASR部分通过图像提示采集语音，虽然增加了转录的复杂性，但能够更真实地反映自然语言的使用。这种方法虽然面临转录难度，但却能有效捕捉到不同说话人和环境下的语言变异，提升了数据的实用性。

WAXAL的TTS部分专注于高质量的单人合成语音，采用专业录音棚环境和语音平衡的脚本。这种设计确保了合成语音的一致性和清晰度，适合用于各种应用场景，尤其是在需要高保真度的语音合成时。

❓

WAXAL是一个开放的多语言语音数据集，涵盖24种非洲语言，专为自动语音识别（ASR）和文本转语音（TTS）设计。

ASR部分通过图像提示自然采集语音，受试者用母语描述所见内容，录音在自然环境中进行。

TTS部分在专业录音棚中高质量录制，使用语音平衡的脚本，确保发音一致性。

ASR部分的转录文本由当地语言专家制作，TTS部分邀请72位社区成员参与，确保音频质量。

ASR和TTS对数据的需求不同，ASR关注自然环境中的语音采集，而TTS则强调录音条件和发音一致性。

WAXAL旨在提高资源匮乏的非洲语言在自动语音识别和文本转语音领域的代表性，促进相关技术的发展。

🏷️