MOSEL: 950,000 Hours of Speech Data for Training Open-Source Speech Foundation Models in EU Languages

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究解决了开源语音模型缺乏合规数据的问题,聚焦欧盟24种官方语言。通过调查,收集了95万小时的训练数据,并发布了44.1万小时的自动转录数据,推动了开源语音模型的发展。

🎯

关键要点

  • 本研究解决了开源语音模型缺乏合规数据的问题。
  • 研究聚焦于欧盟24种官方语言。
  • 通过调查,收集了95万小时的训练数据。
  • 发布了44.1万小时的自动转录数据。
  • 推动了开源语音模型的发展。
➡️

继续阅读