小红花·文摘

本文介绍了姿态估计之WHAM和手势估计之HaMeR。WHAM使用ViTPose检测2D关键点，并使用Motion Encoder提取运动特征。通过图像特征和运动特征的结合，提升2D关键点到3D网格。WHAM还设计了全局轨迹解码器和接触感知轨迹的优化。HaMeR用于在3D中重建手势。