小红花·文摘

本文介绍了一个新的像素注释数据集VISOR，用于在自我中心视频中分割手和活动对象。该数据集包含272K带标注的语义掩模，9.9M插值稠密掩模，67K手-物体关系，覆盖36小时的179个未修剪的视频。同时，还介绍了三项有关视频对象分割、交互理解和长期推理的挑战。