小红花·文摘

本研究解决了开源语音模型缺乏合规数据的问题，聚焦欧盟24种官方语言。通过调查，收集了95万小时的训练数据，并发布了44.1万小时的自动转录数据，推动了开源语音模型的发展。