语言绑定:通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种多级对齐训练方案,通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码而不同语义的信息保持分开。该方案可应用于各种视频和语言接地任务,并在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。
🎯
关键要点
- 提出了一种多级对齐训练方案,关注视频和语言之间的语义联系。
- 该方案基于信息相似性,从高层次的上下文到细粒度的语义进行对齐。
- 通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码。
- 不同语义的信息保持分开,以优化共享特征空间。
- 多级对齐训练可应用于各种视频和语言接地任务。
- 在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。
➡️