本文介绍了一种新的跨模态知识迁移方法,通过组合对比学习提升视频表示学习效果。实验结果显示,该方法在多个视频数据集上显著优于现有的知识蒸馏技术。此外,文中探讨了自监督学习在音频-视觉表示学习中的应用,并提出多种新方法以提高音视频分析的准确性和效率。
完成下面两步后,将自动完成登录并继续当前操作。