本研究提出了一种“视频深度任意物体”模型,解决了单目深度估计在视频中的时间不一致性问题。该模型在超长视频中实现了高质量的一致性深度估计,且效率未受影响,实验结果在多个基准上创下新纪录。
该研究旨在通过利用现有视频生成模型中的先验知识,将视频深度估计问题转化为条件生成问题,以降低学习难度并增强泛化能力。作者提出了一种先优化空间层再优化时间层的训练策略,并通过滑动窗口策略在任意长的视频上进行推断,获得时间一致性的深度估计结果。实验结果表明,ChronoDepth方法在估计深度的时间一致性方面优于现有方法,并在深度条件视频生成和新视角合成等实际应用中展示了更一致的视频深度的益处。
本研究提出了一种新的视频深度估计方法FutureDepth,通过学习预测未来来改善深度估计。实验证明FutureDepth在准确性和效率方面优于基线模型,创造了最新的准确性水平。
完成下面两步后,将自动完成登录并继续当前操作。