小红花·文摘

本研究提出了S2Cap数据集，解决了音频-文本数据集中缺乏音乐特征的问题。该数据集包含多样的音频与文本配对，涵盖音调、音量和情绪等属性。同时，引入CRESCENDO机制，提升了唱歌风格字幕生成的准确性。