本文提出了一种深度神经网络模型,解决音频与图像情感对应问题。研究开发了“感觉变分自编码器”(SynVAE)和“Video2Music”框架,能够生成与视频情感匹配的音乐。实验表明生成音乐的质量和匹配度较高。此外,研究探讨了音乐生成与情感表达的关系,提出了基于音乐元素的正则化方法(MusER),并设计了客观的音乐美感测量模型。
完成下面两步后,将自动完成登录并继续当前操作。