本研究提出了一种新颖的音视频嵌入学习方法,结合跨模态三重损失与逐步自我蒸馏,解决了标签引导导致的性能不足问题。该方法通过动态优化软对齐,提升了表征学习,有效捕捉内在关系,从而提高音视频嵌入性能。
完成下面两步后,将自动完成登录并继续当前操作。