Video2Motion之GVHMR——基于重力-视角坐标的人体运动恢复：从RGB视频中提取人的SMPL轨迹(含人体姿态估计WHAM的详解)

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

本文探讨了WHAM和GVHMR模型在人体姿态估计中的应用。WHAM利用视频数据和RNN进行3D运动预测，优化脚接触感知；GVHMR在重力坐标系中恢复人体运动，减少误差累积，提高精度。

🎯

❓

WHAM模型主要用于从视频数据中提取3D运动预测，优化脚接触感知，预测SMPL模型参数序列。

GVHMR通过施加重力约束来避免在重力方向上的累积误差，从而提高人体运动恢复的精度。

WHAM的训练分为预训练和微调两个阶段，预训练使用合成数据，微调则在真实视频数据集上进行。

GVHMR模型的创新在于使用重力-视角坐标系来定义人体朝向，并通过相对旋转将帧对齐，提升了运动恢复的效率。

WHAM通过脚接触概率优化轨迹，解决脚滑问题，使模型能够更好地泛化到各种运动。

GVHMR在处理1430帧的视频时，仅需280毫秒，显示出其在时间维度上的高效性。

🏷️

隐形的代价：隐形水印会影响视频质量和码率吗？
4K HDR电影在传输过程中需嵌入隐形水印以保护内容。水印技术面临压缩算法的挑战，可能导致画质损失。后处理水印和生成式水印各有优缺点，后者在创作过程中嵌入...
视频技术领域的静默革命
视频监控行业的压缩技术正在变化，AV1编解码器逐渐取代H.264，成为新标准。AV1在高分辨率视频压缩效率上提高了30%至50%，降低了带宽需求，提升了图...
为视频制定 XR 战略
XR技术日益成熟，公众兴趣增加，但商业化应用仍需探索。分析机构预测未来二十年XR设备销量将大幅增长，视频服务提供商应尽早制定XR战略，以避免错失机会。不同...
马斯克诉奥特曼证明了AI行业由错误的人领导
马斯克与奥特曼的法律斗争揭示了AI行业领导者的不可信。两位创始人争夺OpenAI控制权，法庭证据显示双方均存在不诚实行为，导致公众对AI的信任度下降，呼吁更严格的监管。
如何充分利用 Claude Cowork
Claude Cowork 是一款为非技术知识工作者设计的桌面应用程序，能够自动处理文件和任务。用户只需描述所需结果，Claude 会分解任务并在指定文件...
为什么生产环境中的RAG系统在大规模时会给出自信但错误的答案
In production RAG systems, the biggest bottleneck usually isn’t the LLM. It’s...