本文介绍了基于Ego4D的RefEgo数据集,包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。
完成下面两步后,将自动完成登录并继续当前操作。