本文提出了一种端到端可训练模型,用于感知3D场景、估计相机姿态和室内布局,并重建人体和物体网格。通过全面而复杂的损失,证明了该模型优于现有方法。这是第一个在网格级别输出对象和人体预测,并联合优化场景和人体姿态的模型。
本文介绍了一种新的面向近在线视频实例分割(NOVIS)方法,通过分析不同处理范式和新的端到端可训练模型,证明了该方法的优越性,并在YouTube-VIS和OVIS基准测试中取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。