通过跨模态流形对齐从单眼视频学习人类动作
原文中文,约300字,阅读约需1分钟。发表于: 。该论文介绍了通过视频和 2D 关键点之间的跨模态潜在特征空间对三维人体运动和 2D 输入之间进行运动先验对齐的 Video-to-Motion Generator (VTM),该方法通过将运动数据分别建模为上半身和下半身,以及使用尺度不变的虚拟骨架与运动数据对齐,展示了在重建单目视频中的三维人体运动方面具有领先水平的表现,尤其是在未见过的视角和野外视频中的泛化能力。
该论文介绍了一种名为Video-to-Motion Generator (VTM)的方法,通过视频和2D关键点之间的跨模态潜在特征空间对三维人体运动和2D输入之间进行运动先验对齐。该方法在重建单目视频中的三维人体运动方面表现出领先水平,尤其在未见过的视角和野外视频中的泛化能力。