LAHAJA:评估印地语自动语音识别系统的多口音基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

INDICVOICES数据集包含了来自16237名发言人的7348小时的语音数据,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。他们希望这个开源蓝图能成为其他多语言地区数据收集的指南。利用INDICVOICES,他们构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。

🎯

关键要点

  • INDICVOICES数据集包含16237名发言人的7348小时语音数据,涵盖145个印度地区和22种语言。
  • 文章分享了数据收集的标准化协议、工具、问题、提示和对话场景库。
  • 提供了质量控制机制和全面的转录指南。
  • 希望这一开源蓝图能成为其他多语言地区数据收集的指南。
  • 利用INDICVOICES构建了IndicASR,这是第一个支持22种语言的ASR模型。
  • 所有数据、工具、指南、模型和其他资料将公开提供。
➡️

继续阅读