TemporalBench:多模态视频模型的细粒度时间理解基准

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

该研究介绍了TimeChat,一种用于长视频理解的多模态大语言模型。通过时间感知帧编码器和滑动视频Q-Former,将视觉内容与时间戳结合,生成适应不同视频长度的令牌序列。实验表明,TimeChat在多个视频理解任务中表现出色,具备成为通用视频助手的潜力。

🎯

关键要点

  • 该研究提出了TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。
  • TimeChat通过时间感知帧编码器和滑动视频Q-Former实现视觉内容与时间戳的结合。
  • 模型生成适应不同持续时间视频的长度可变视频令牌序列。
  • 构建了一个调整指令的数据集,包括6个任务和12.5万个实例,以提高指令遵循性能。
  • 实验结果显示TimeChat在密集字幕生成、时间定位和重点检测等任务中表现出色。
  • 在YouCook2上,TimeChat在F1评分上提升了9.2,CIDEr提升了2.8,HIT@1提升了5.8,R@1提升了27.5。
  • TimeChat具备作为长视频理解任务的通用视频助手的潜力,能够满足真实用户需求。
➡️

继续阅读