I2R-VI-FF 技术报告:EPIC-KITCHENS VISOR 手部物体分割挑战 2023

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一个新的像素注释数据集VISOR,用于在自我中心视频中分割手和活动对象。该数据集包含272K带标注的语义掩模,9.9M插值稠密掩模,67K手-物体关系,覆盖36小时的179个未修剪的视频。同时,还介绍了三项有关视频对象分割、交互理解和长期推理的挑战。

🎯

关键要点

  • 介绍了新的像素注释数据集VISOR,用于自我中心视频中的手和活动对象分割。
  • VISOR数据集应对EPIC-KITCHENS视频中的新挑战,引入AI动力注释流程以确保像素级注释的一致性。
  • 数据集包含272K带标注的语义掩模,9.9M插值稠密掩模,67K手-物体关系,覆盖36小时的179个未修剪的视频。
  • 介绍了三项挑战,涉及视频对象分割、交互理解和长期推理。
➡️

继续阅读