本研究提出了一种新方法,通过单视角图像重建手物体交互。利用基础模型的泛化能力,设计了新的管道来估计手势和物体形状,并通过优化方案提高重建精度。实验结果表明,该方法在多种数据集上表现优异。
本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点,并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合,提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。
完成下面两步后,将自动完成登录并继续当前操作。