通过时空图变换进行视频 - 语言对齐预训练
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种多级对齐训练方案,通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码而不同语义的信息保持分开。该方案可应用于各种视频和语言接地任务,并在多个数据集上实现了可比较的性能。
🎯
关键要点
- 提出了一种多级对齐训练方案,关注视频和语言之间的语义联系。
- 该方案基于信息相似性,从高层次的上下文到细粒度的语义进行对齐。
- 通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码。
- 不同语义的信息保持分开,以优化共享特征空间。
- 多级对齐训练可应用于各种视频和语言接地任务。
- 在多个视频 QA 和检索数据集上实现了与现有技术可比较的性能。
➡️