💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
浙江大学研究团队推出了GTSinger,一个大型开源歌声数据集,包含80.59小时的专业录制歌声,涵盖九种语言和多种歌唱技巧。数据集提供真实乐谱和朗读数据,适用于多种歌声任务。研究者确保数据质量,并在多个任务上进行测试,未来计划扩展数据的多样性。
🎯
关键要点
- 浙江大学研究团队推出GTSinger,一个大型开源歌声数据集,包含80.59小时的专业录制歌声。
- GTSinger涵盖九种语言和多种歌唱技巧,提供真实乐谱和朗读数据,适用于多种歌声任务。
- 研究者确保数据质量,并在多个任务上进行测试,未来计划扩展数据的多样性。
- 传统歌声任务面临缺乏高质量和多任务的开源歌声数据集的挑战。
- GTSinger的优势包括专业录音、丰富的语言和风格多样性、对照组和音素级技巧标注。
- 数据集的收集流程包括音频录制、人工标注和后续处理,确保数据的高质量。
- GTSinger在技巧可控的歌声合成、技巧识别、歌声风格迁移和语音到歌声转换等任务上进行了基准测试。
- 未来工作将扩展数据的多样性,涵盖更多语言和技巧,并研发基于字级别的模型。
➡️