人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含SMPL-X的详解)
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点,并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合,提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。
🎯
关键要点
- 本文介绍了姿态估计WHAM和手势估计HaMeR。
- WHAM使用ViTPose检测2D关键点,并通过Motion Encoder提取运动特征。
- WHAM结合图像特征和运动特征,将2D关键点提升到3D网格。
- WHAM设计了全局轨迹解码器和接触感知轨迹的优化。
- HaMeR用于在3D中重建手势。
- WHAM的输入为原始视频数据,目标是预测SMPL模型参数序列。
- WHAM使用RNN作为运动编码器和解码器,提取运动上下文。
- 运动解码器恢复SMPL参数、相机平移和脚接触地面的概率。
- 特征整合网络结合运动和视觉上下文,使用残差连接。
- 全局轨迹解码器预测粗略的全局根方向和根速度。
- 新轨迹优化器解决脚滑问题,使WHAM泛化到各种运动。
- WHAM的两阶段训练尚待更新。
- 手势估计HaMeR的提交记录为2023年12月8日,具体内容待更新。
➡️