本文提出了一种端到端可训练模型,用于感知3D场景、估计相机姿态和室内布局,并重建人体和物体网格。通过全面而复杂的损失,证明了该模型优于现有方法。这是第一个在网格级别输出对象和人体预测,并联合优化场景和人体姿态的模型。
完成下面两步后,将自动完成登录并继续当前操作。