MVBIND: 基于嵌入空间绑定的自监督音乐视频推荐
原文中文,约300字,阅读约需1分钟。发表于: 。该研究介绍了 MVBind,一种用于跨模态检索的创新音乐视频嵌入绑定模型。通过 MVBind,能够在没有手动注释的情况下,从数据中直接获取模态间关系的内在知识。此外,为了弥补短视频缺乏相应音乐 - 视觉对数据集的不足,该研究构建了 SVM-10K(具有精选的短视频和音乐的 10K 数据集),在该数据集上,MVBind 相比其他基准模型表现出显著提高。为方便未来研究,已经发布了构建的数据集和代码。
该研究介绍了MVBind,一种用于跨模态检索的音乐视频嵌入绑定模型。通过MVBind,能够直接获取模态间关系的内在知识。研究构建了SVM-10K数据集,并发布了数据集和代码。