越多的 2D 视觉,越多的 3D 感知
原文中文,约400字,阅读约需1分钟。发表于: 。基于人类基于过去经验从 2D 图像中推断出 3D 结构,并随着观察更多图像改进 3D 理解的行为,我们引入了 SAP3D,这是一个从任意数量的非约束图像进行 3D 重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作 3D...
研究引入了SAP3D系统,从2D图像中推断出3D结构,并通过观察更多图像改进3D理解。通过微调预训练的视图条件扩散模型和摄像机位姿,实现了3D重建和新视角合成。实验结果证实了该系统对于准确的3D理解至关重要。