本文提出了一种多级对齐训练方案,通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码而不同语义的信息保持分开。该方案可应用于各种视频和语言接地任务,并在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。
完成下面两步后,将自动完成登录并继续当前操作。