结构之法算法之道 ·

人体姿态估计WHAM与手势估计HaMeR：人形机器人重定向的关键技术(含SMPL-X的详解)

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点，并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合，提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。

🎯

❓

WHAM的主要功能是通过检测2D关键点和提取运动特征，将2D关键点提升到3D网格，并预测SMPL模型参数序列。

WHAM使用RNN作为运动编码器和解码器，从当前和之前的2D关键点中提取运动上下文，并恢复SMPL参数和脚接触地面的概率。

HaMeR用于在3D中重建手势，具体细节尚待更新。

WHAM通过新轨迹优化器调整根速度，以最小化脚滑，并更新根部方向和速度来解决接触和姿态估计不准确的问题。

WHAM的输入数据是由相机捕获的原始视频数据，可能具有未知运动。

全局轨迹解码器用于从运动特征中预测粗略的全局根方向和根速度，并将人类和相机运动解耦。

🏷️