本研究报告介绍了在Egocentric 3D Hand Pose Estimation挑战赛中的工作,采用基于ViT的模型进行3D关键点预测,并提出了后处理合并多视图结果的方法以解决遮挡问题。通过测试时间增强和模型集成,方法在测试集上实现了12.21mm的MPJPE,获得第一名。此外,研究探讨了自我中心手-物体交互的挑战,提出了新算法EvHandPose,并建立了事件驱动手部姿态数据集,以提升快速运动下的姿态估计精度。
Ego-Exo4D是一个多模态多视图视频数据集和基准挑战,包含了来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行的技能人类活动的自我中心和外部视角视频。该数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。为了推进对技能人类活动的第一人视角视频理解的研究,提出了一系列基准任务及其标注。
完成下面两步后,将自动完成登录并继续当前操作。