小红花·文摘

我们提出了一种通过大型预训练文本模型的语言描述来优化3D人体姿势的方法。该方法将多模态模型生成的自然语言描述转化为损失函数，以优化3D姿势。尽管方法简单，但能有效重建人与人之间的接触姿势，捕捉社交和物理互动的语义，与复杂的先进方法相媲美，并提供统一框架解决自体和人与人接触问题。