小红花·文摘

本文介绍了一种通过对短视频剪辑进行手物体交互的重建任务的方法，通过优化每个视频的3D推断，恢复物体形状的神经3D表示和时间变化的动作和手关节。使用通用的数据驱动先验来引导重建过程中的多视角信号，实现准确的3D结果。实证评估表明，该方法相较于先前的方法有显著改进，能够从YouTube中重建任意剪辑，展示了第一人称和第三人称的交互。