本研究提出了S2Cap数据集,解决了音频-文本数据集中缺乏音乐特征的问题,并通过增强对齐机制提高了字幕生成准确性。
该论文提出了一种基于深度学习的歌唱声音转换方法,可以将一个歌手的音频转换为另一个歌手的声音。通过使用单个CNN编码器和分类器进行训练和模型改进,每个歌手都表示为一个嵌入式向量,以检测其独特的音乐特征。该方法在较小的数据集上取得了良好的效果。
该研究使用可解释的潜在维度的生成音乐XAI模型在爱尔兰民间音乐的训练数据集上进行了自传体研究。结果显示,探索性的音乐创作流程突显了训练数据集的音乐特征而非生成模型本身的特征。XAI模型在迭代工作流中的应用显示出其成为比其最初设计用途更丰富和复杂工作流的潜力。
完成下面两步后,将自动完成登录并继续当前操作。