通过对齐情感与时间边界生成视频配乐

📝

内容提要

本文提出了一种名为EMSYNC的视频基础符号音乐生成模型,解决了视频情感内容与配乐之间的对齐问题。该模型采用二阶段框架,利用预训练的视频情感分类器提取情感特征,并通过条件音乐生成器根据情感和时间线索生成MIDI序列。研究发现,EMSYNC在主观听众测试中,各项主观指标表现超越了现有的先进模型,展示了其在音乐生成领域的显著潜力。

➡️

继续阅读