人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含SMPL-X的详解)
原文中文,约2200字,阅读约需6分钟。发表于: 。根据arXiv的记录,此篇论文的提交记录为[Submitted on 12 Dec 2023 (v1), last revised 18 Apr 2024 (this version, v2)]如下图所示,WHAM的输入是由可能具有未知运动的相机捕获的原始视频数据,接下来的目标是预测对应的SMPL模型参数序列,以及在世界坐标系中表达的根方向和平移,具体做法是。
本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点,并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合,提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。