通过语言、姿态和合成 IMU 的联合表示强化基于惯性手部人体动作识别
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种新颖的多模态、多任务和对比基于框架方法 Multi$^3$Net,用于解决人体动作识别中数据有限的问题。该方法通过使用视频数据和对比学习,旨在增强可穿戴人体动作识别的性能,特别是在识别细微活动方面。实验证明,使用该方法从视频生成的合成 IMU 数据训练的模型在识别细粒度活动方面超越了现有方法。
🎯
关键要点
- 本文介绍了一种新颖的多模态、多任务和对比基于框架方法 Multi$^3$Net。
- 该方法旨在解决人体动作识别中数据有限的问题。
- 通过使用视频数据合成惯性测量单元(IMU)数据,利用丰富的活动注释。
- 在真实环境中从视频生成 IMU 数据对 HAR 提出了挑战。
- 合成 IMU 数据的质量较差,细微、细粒度动作的效果有限。
- 预训练过程使用在线存储库的视频,学习文本、姿势和 IMU 的联合表示。
- 该方法增强可穿戴 HAR 性能,特别是在识别细微活动方面。
- 实验结果验证了该方法在利用 IMU 数据改善 HAR 性能方面的有效性。
- 使用该方法生成的合成 IMU 数据训练的模型在识别细粒度活动方面超越了现有方法。
➡️