PoseEmbroider:朝向一种三维视觉语义感知的人体姿态表示
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有方法在区分细致或不常见的人体姿态时的不足,提出了一种结合三维姿态、个体图像和文字描述的新型姿态表示方法。新模型采用基于变压器的架构,支持多模态输入,显著提高了信息整合能力,对细粒度指令生成和姿态回归任务具有重要影响。
本文介绍了一种零射类实验中的姿势优化方法,通过利用大型预训练的基于文本的模型作为姿势估计的先验知识,实现了准确的物理接触约束。该方法能够产生令人信服的人与人之间的接触姿势重建,并捕捉到社交和物理互动的语义。与其他方法相比,该方法不需要昂贵的人工标注联系点和训练专门模型,且提供了解决自体接触和人与人之间接触的统一框架。