小红花·文摘

本文提出了一种深度神经网络模型，解决音频与图像情感对应问题。研究开发了“感觉变分自编码器”（SynVAE）和“Video2Music”框架，能够生成与视频情感匹配的音乐。实验表明生成音乐的质量和匹配度较高。此外，研究探讨了音乐生成与情感表达的关系，提出了基于音乐元素的正则化方法（MusER），并设计了客观的音乐美感测量模型。