本文介绍了一个新的像素注释数据集VISOR,用于在自我中心视频中分割手和活动对象。该数据集包含272K带标注的语义掩模,9.9M插值稠密掩模,67K手-物体关系,覆盖36小时的179个未修剪的视频。同时,还介绍了三项有关视频对象分割、交互理解和长期推理的挑战。
完成下面两步后,将自动完成登录并继续当前操作。