人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含SMPL-X的详解)

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点,并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合,提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。

🎯

关键要点

  • 本文介绍了姿态估计WHAM和手势估计HaMeR。
  • WHAM使用ViTPose检测2D关键点,并通过Motion Encoder提取运动特征。
  • WHAM结合图像特征和运动特征,将2D关键点提升到3D网格。
  • WHAM设计了全局轨迹解码器和接触感知轨迹的优化。
  • HaMeR用于在3D中重建手势。
  • WHAM的输入为原始视频数据,目标是预测SMPL模型参数序列。
  • WHAM使用RNN作为运动编码器和解码器,提取运动上下文。
  • 运动解码器恢复SMPL参数、相机平移和脚接触地面的概率。
  • 特征整合网络结合运动和视觉上下文,使用残差连接。
  • 全局轨迹解码器预测粗略的全局根方向和根速度。
  • 新轨迹优化器解决脚滑问题,使WHAM泛化到各种运动。
  • WHAM的两阶段训练尚待更新。
  • 手势估计HaMeR的提交记录为2023年12月8日,具体内容待更新。
➡️

继续阅读