本文提出了一种名为Worldsheet的方法,利用单一RGB图像进行新视角综合。该方法通过可学习的中间深度生成逼真的3D视角,无需3D监督,并在多个数据集上超越现有技术,能够有效处理遮挡,生成可导航的3D弹出窗口。
该研究介绍了CO3D数据集,包含近19,000个视频和1.5百万帧图像,支持新视角综合和3D重建。研究还提出了基于Transformer的NerFormer神经渲染方法,能够根据少数视角重建物体,并提供精准的相机位置和物体姿态标注,促进3D应用的发展。
完成下面两步后,将自动完成登录并继续当前操作。