基于多模态信息的时间句子定位在长视频中的基础调度

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了基于视频的语言表示的大规模MAD数据集,并提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。该方法在MAD数据集上获得了更好的效果。

🎯

关键要点

  • 研究了基于视频的语言表示的大规模MAD数据集。
  • 现有的基于句子的方法在长视频中表现效果不佳。
  • 提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。
  • 该方法在MAD数据集上获得了更好的效果。
➡️

继续阅读