本文介绍了一种大规模重建模型(LRM),该模型能够在5秒内从单个图像预测3D模型。LRM基于transformer架构,拥有5亿个参数,能够直接预测神经辐射场(NeRF)。通过在约100万个对象的多视图数据上训练,模型展现出强大的通用性,生成高质量的3D重建结果。此外,提出的多视角大型重建模型(M-LRM)和Human-LRM模型进一步提升了重建质量和适应性,尤其在复杂场景中表现优异。
我们提出了一个大规模重建模型(LRM),可以在5秒内从单个输入图像预测对象的3D模型。该模型采用了一个高度可扩展的基于transformer的架构,并在包含大约100万个对象的海量多视图数据上进行了训练。该模型具有很强的通用性,并能够生成高质量的3D重建结果。
我们提出了一个大规模重建模型(LRM),可以在5秒内从单个输入图像预测对象的3D模型。该模型采用了高度可扩展的transformer架构,并在大约100万个对象的多视图数据上进行了训练。模型通用性强,生成高质量的3D重建结果。
完成下面两步后,将自动完成登录并继续当前操作。