人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含SMPL-X的详解)
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点,并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合,提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。
🎯
关键要点
-
本文介绍了姿态估计WHAM和手势估计HaMeR。
-
WHAM使用ViTPose检测2D关键点,并通过Motion Encoder提取运动特征。
-
WHAM结合图像特征和运动特征,将2D关键点提升到3D网格。
-
WHAM设计了全局轨迹解码器和接触感知轨迹的优化。
-
HaMeR用于在3D中重建手势。
-
WHAM的输入为原始视频数据,目标是预测SMPL模型参数序列。
-
WHAM使用RNN作为运动编码器和解码器,提取运动上下文。
-
运动解码器恢复SMPL参数、相机平移和脚接触地面的概率。
-
特征整合网络结合运动和视觉上下文,使用残差连接。
-
全局轨迹解码器预测粗略的全局根方向和根速度。
-
新轨迹优化器解决脚滑问题,使WHAM泛化到各种运动。
-
WHAM的两阶段训练尚待更新。
-
手势估计HaMeR的提交记录为2023年12月8日,具体内容待更新。
➡️