小红花·文摘

本文提出了一种自监督学习框架，用于从视频中估算对象的运动和深度，并建模为六个自由度刚体变换。该方法使用实例分割掩码引入对象信息，并通过引入几何约束损失项消除运动预测的尺度歧义。实验结果表明，该框架在处理数据时不需要外部注释，并能够捕捉对象的运动。与自监督研究方法相比，在3D场景流预测和动态区域的视差预测方面表现更好。