MOSEL: 950,000 Hours of Speech Data for Training Open-Source Speech Foundation Models in EU Languages
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究解决了开源语音模型缺乏合规数据的问题,聚焦欧盟24种官方语言。通过调查,收集了95万小时的训练数据,并发布了44.1万小时的自动转录数据,推动了开源语音模型的发展。
🎯
关键要点
- 本研究解决了开源语音模型缺乏合规数据的问题。
- 研究聚焦于欧盟24种官方语言。
- 通过调查,收集了95万小时的训练数据。
- 发布了44.1万小时的自动转录数据。
- 推动了开源语音模型的发展。
🏷️
标签
➡️