小红花·文摘

本文提出了一种端到端可训练模型，用于感知3D场景、估计相机姿态和室内布局，并重建人体和物体网格。通过全面而复杂的损失，证明了该模型优于现有方法。这是第一个在网格级别输出对象和人体预测，并联合优化场景和人体姿态的模型。