通过引入跨视图一致的交叉注意力机制和利用三维先验信息,提出了一种高效的多视角大型重建模型 (M-LRM),能够从多视图中以三维感知的方式高质量地重建三维形状,并且相比于 LRM 能够生成分辨率为 $128 imes 128$ 的三平面 NeRF,具有更高的保真度和训练收敛速度。
我们提出了一个大规模重建模型(LRM),可以在5秒内从单个输入图像预测对象的3D模型。该模型采用了一个高度可扩展的基于transformer的架构,并在包含大约100万个对象的海量多视图数据上进行了训练。该模型具有很强的通用性,并能够生成高质量的3D重建结果。
我们提出了一个大规模重建模型(LRM),可以在5秒内从单个输入图像预测对象的3D模型。该模型采用了高度可扩展的transformer架构,并在大约100万个对象的多视图数据上进行了训练。模型通用性强,生成高质量的3D重建结果。
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,同时在单个A100 GPU上估计相机姿势,仅需约1.3秒。PF-LRM利用自注意力块在三维物体标记和二维图像标记之间交换信息,具有强大的泛化能力,并在未见评估数据集上超越基线方法。模型适用于下游文本/图像到三维任务,并具有快速的前馈推理。
LRM是一个大规模重建模型,可以在5秒内从单个输入图像预测对象的3D模型。该模型采用高度可扩展的transformer架构,在包含大约100万个对象的海量多视图数据上进行端到端训练。该模型具有很强的通用性,并能够从各种测试输入中生成高质量的3D重建结果。
完成下面两步后,将自动完成登录并继续当前操作。