EPIC-KITCHENS数据库是一个大规模数据集,包含32名参与者的55小时第一人称视角视频,涵盖39.6K个动作段和454.3K个物体边界框,记录了厨房中的日常行为,具有多样性和真实意图的注释,推动了视频领域的研究与评估。
本研究提出了一种基于全序列级别的特征聚合方法(SELSA),用于视频目标检测。该方法在 ImageNet VID 和 EPIC KITCHENS 数据集上取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。