本研究报告介绍了在Egocentric 3D Hand Pose Estimation挑战赛中的工作,使用AssemblyHands和ViT骨干网络进行3D关键点预测,通过后处理阶段解决了手-物体遮挡和自遮挡引起的性能下降问题,利用测试时间增强和模型集成进一步改进了方法,获得了第一名。
Ego-Exo4D是一个多模态多视图视频数据集和基准挑战,包含了来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行的技能人类活动的自我中心和外部视角视频。该数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。为了推进对技能人类活动的第一人视角视频理解的研究,提出了一系列基准任务及其标注。
完成下面两步后,将自动完成登录并继续当前操作。