我们提出了一种通过大型预训练文本模型的语言描述来优化3D人体姿势的方法。该方法将多模态模型生成的自然语言描述转化为损失函数,以优化3D姿势。尽管方法简单,但能有效重建人与人之间的接触姿势,捕捉社交和物理互动的语义,与复杂的先进方法相媲美,并提供统一框架解决自体和人与人接触问题。
完成下面两步后,将自动完成登录并继续当前操作。