语言绑定:通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种多级对齐训练方案,通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码而不同语义的信息保持分开。该方案可应用于各种视频和语言接地任务,并在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。

🎯

关键要点

  • 提出了一种多级对齐训练方案,关注视频和语言之间的语义联系。
  • 该方案基于信息相似性,从高层次的上下文到细粒度的语义进行对齐。
  • 通过对称损失来对齐视频和语言的编码,确保相似信息紧密编码。
  • 不同语义的信息保持分开,以优化共享特征空间。
  • 多级对齐训练可应用于各种视频和语言接地任务。
  • 在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。
➡️

继续阅读