Constructing a Singing Style Caption Dataset
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了S2Cap数据集,解决了音频-文本数据集中缺乏音乐特征的问题。该数据集包含多样的音频与文本配对,涵盖音调、音量和情绪等属性。同时,引入CRESCENDO机制,提升了唱歌风格字幕生成的准确性。
🎯
关键要点
- 本研究提出了S2Cap数据集,解决了音频-文本数据集中缺乏音乐特征的问题。
- S2Cap数据集包含多样的音频与文本配对,涵盖音调、音量和情绪等属性。
- 引入CRESCENDO机制,提升了唱歌风格字幕生成的准确性。
➡️