统一的视频 - 语言联合预训练与同步音频

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

我们提出了一种增强的视频语言预训练框架,使用同步音频,可以在统一的自监督转换器中学习三模态表示。模型在仅使用90万条数据进行预训练的情况下,取得了相对于现有基准的改进结果,并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

🎯

关键要点

  • 提出了一种增强的视频语言预训练框架
  • 使用同步音频学习三模态表示
  • 在统一的自监督转换器中进行学习
  • 模型仅使用90万条数据进行预训练
  • 相对于现有基准取得了改进结果
  • 通过定性可视化展示学习的视觉文本表示的优越性
➡️

继续阅读