Kallaama:塞内加尔三种最广泛使用的语言中关于农业的转录语音数据集

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

Kallaama项目旨在为农业领域的语音技术发展提供全国语言语料库。他们发布了一个包含沃洛夫语、普拉语和赛尔语的125小时录音的转录语音数据集,专为自动语音识别目的而设计。

🎯

关键要点

  • Kallaama项目旨在为农业领域的语音技术发展提供全国语言语料库。
  • 该项目关注塞内加尔的三种主要口语语言:沃洛夫语、普拉语和赛尔语。
  • 这些语言在塞内加尔有约1000万母语使用者,但在语言技术中被忽视。
  • 发布了包含125小时录音的转录语音数据集,专为自动语音识别设计。
  • 数据集包括沃洛夫语和普拉语的文本语料库,以及49132个条目的沃洛夫语发音词典。
➡️

继续阅读