小红花·文摘

本研究探讨了音乐与视频的跨模态推荐，采用自监督学习和多种音频嵌入技术，显著提升了推荐效果。通过跨模态三元组损失和深度神经网络，提出了新的检索方法，解决了模态偏见问题，实现了高效的音频与视频匹配。