本文提出了一种自监督学习框架,用于从视频中估算对象的运动和深度,并建模为六个自由度刚体变换。该方法使用实例分割掩码引入对象信息,并通过引入几何约束损失项消除运动预测的尺度歧义。实验结果表明,该框架在处理数据时不需要外部注释,并能够捕捉对象的运动。与自监督研究方法相比,在3D场景流预测和动态区域的视差预测方面表现更好。
完成下面两步后,将自动完成登录并继续当前操作。