HAP: 面向人类感知的结构感知遮挡图像建模

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种名为MIM的预训练方法,通过人体部位的引导来指导掩码采样过程,更好地捕捉人体结构信息。提出了一种结构不变的对齐损失,通过人体部位先验来引导不同的掩码视图在同一图像上紧密对齐。该方法命名为HAP,在11个人体为中心的基准测试上取得了新的最高性能。

🎯

关键要点

  • 本文介绍了一种名为MIM的预训练方法。
  • MIM方法通过人体部位的引导来指导掩码采样过程。
  • 该方法旨在更好地捕捉人体结构信息。
  • 提出了一种结构不变的对齐损失。
  • 对齐损失通过人体部位先验引导不同的掩码视图在同一图像上紧密对齐。
  • 该方法命名为HAP,使用简单的ViT编码器。
  • HAP在11个人体为中心的基准测试上取得了新的最高性能。
  • 在MSMT17上,HAP实现了78.1%的mAP。
  • 在PA-100K上,HAP实现了86.54%的mA。
  • 在MS COCO上,HAP实现了78.2%的AP。
  • HAP可进行2D姿势估计,在3DPW上实现了56.0的PA-MPJPE。
  • HAP还可进行3D姿势和形状估计。
➡️

继续阅读