机器之心 ·

AI作曲缺数据，浙大GTSinger数据集上线：适配所有歌声任务、带有真实乐谱

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

浙江大学研究团队推出了GTSinger，一个大型开源歌声数据集，包含80.59小时的专业录制歌声，涵盖九种语言和多种歌唱技巧。数据集提供真实乐谱和朗读数据，适用于多种歌声任务。研究者确保数据质量，并在多个任务上进行测试，未来计划扩展数据的多样性。

🎯

🔎

GTSinger数据集的多样性体现在其涵盖的九种语言和六种歌唱技巧上。这种多样性不仅增强了模型对不同音色和风格的学习能力，也为研究者提供了更广泛的实验基础，适应不同的歌声任务需求。

GTSinger的高质量来源于严格的录制和标注流程。专业歌手在专业录音棚中录制，确保了音频的清晰度和准确性。此外，人工标注和审核流程也大大提高了数据的可靠性，减少了模型学习中的噪音干扰。

GTSinger团队计划未来扩展数据集的多样性，包括更多语言和歌唱技巧。这一扩展将进一步推动歌声合成技术的发展，使其能够适应更广泛的应用场景，如多语言音乐创作和个性化歌声生成。

❓

GTSinger数据集包含80.59小时的专业录制歌声，涵盖九种语言和多种歌唱技巧，提供真实乐谱和朗读数据，适用于多种歌声任务。

GTSinger通过提供高质量的录音、丰富的语言和风格多样性、技巧对照组和真实乐谱，解决了传统歌声任务缺乏高质量数据集的问题。

GTSinger的收集流程包括音频录制、人工标注和后续处理，确保数据的高质量和准确性。

GTSinger在技巧可控的歌声合成、技巧识别、歌声风格迁移和语音到歌声转换等任务上进行了全面评估。

未来计划扩展数据的多样性，涵盖更多语言和技巧，并研发基于字级别的模型。

GTSinger的数据录制由专业歌手在专业录音棚中进行，确保了录音的高质量。

🏷️