RefEgo: 第一人称自我感知的指称表达理解数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了基于Ego4D的RefEgo数据集,包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。

🎯

关键要点

  • 本文介绍了基于Ego4D的RefEgo数据集。
  • RefEgo数据集包含超过12k个视频剪辑和41小时的引用表达理解批注。
  • 从第一人称视角将文本表达与场景对象联系起来是一项具有挑战性的能力。
  • 结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。
  • 该技术能够处理视频中所指对象超出视野或出现多个相似对象的情况。
➡️

继续阅读