小红花·文摘

本文介绍了一种新的跨模态知识迁移方法，通过组合对比学习提升视频表示学习效果。实验结果显示，该方法在多个视频数据集上显著优于现有的知识蒸馏技术。此外，文中探讨了自监督学习在音频-视觉表示学习中的应用，并提出多种新方法以提高音视频分析的准确性和效率。