本研究探讨了音乐与视频的跨模态推荐,采用自监督学习和多种音频嵌入技术,显著提升了推荐效果。通过跨模态三元组损失和深度神经网络,提出了新的检索方法,解决了模态偏见问题,实现了高效的音频与视频匹配。
完成下面两步后,将自动完成登录并继续当前操作。