SPRING-INX: 由印度马德拉斯理工学院 SPRING Lab 创建的多语言印度语音语料库

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

印度理工学院马德拉斯分校的 SPRING 实验室和全国语种翻译计划提供了 SPRING-INX 数据,其中包括 2000 小时的合法获取和手动转录的语音数据,用于搭建 ASR 系统。本文介绍了数据收集和数据清洗的过程,并提供了数据统计。

🎯

关键要点

  • 印度宪法正式认可22种语言。
  • 构建基于语音的应用程序面临数据有限和语言口音多样性的问题。
  • SPRING-INX 数据包含2000小时的合法获取和手动转录的语音数据。
  • 该数据用于搭建自动语音识别(ASR)系统。
  • 项目由印度理工学院马德拉斯分校的SPRING实验室和全国语种翻译计划共同推进。
  • 文章介绍了数据收集和清洗的过程,并提供了相关数据统计。
➡️

继续阅读