该研究使用数据驱动先验恢复物体形状的神经3D表示和时间变化的动作和手关节。在6个物体类别的自我中心视频上进行实证评估,相较于先前的方法有显著改进。该系统能够从YouTube中重建任意剪辑,展示了第一人称和第三人称的交互。
研究提出了一种名为CLIP-Hand3D的3D手势估计器,能够将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索21个手关节的空间分布以形成姿势感知特征。实验结果表明,该模型在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。