Matrix3D是一种统一模型,能够同时进行姿态估计、深度预测和新视图合成。它通过多模态扩散变换器整合图像、相机参数和深度图,采用掩码学习策略进行大规模多模态训练,显著提升训练数据的可用性。Matrix3D在姿态估计和新视图合成方面表现优异,并通过多轮交互提供精细控制,是3D内容创作的创新工具。
本研究提出了一种新的点云表示方法,解决了单摄像头RGB视频的在线3D重建问题。通过实时更新点云和深度预测,减少了预测错误的影响,实验结果表明其在在线多视图立体任务中表现优异。
本论文介绍了一种名为ISO的新方法,用于预测室内场景的占据情况。ISO利用预训练的深度模型实现准确的深度预测,并引入了双特征视线投影模块,增强了三维体素特征的学习。同时,作者还介绍了Occ-ScanNet,一个用于室内场景的大规模占据基准。实验结果表明,该方法达到了最先进的性能。
3DVNet是一种新型的多视图立体深度预测方法,使用基于体积的三维卷积神经网络进行操作,能够超越现有技术在深度预测和3D重建度量上。该方法具有很好的效果和通用性。
该研究探讨了在混合数据深度预测训练中使用的位移不变重建损失引起的未知深度偏移和未知相机焦距问题。作者提出了一个两阶段框架,使用三维点云编码器预测深度偏移和焦距,以恢复逼真的3D场景形状。他们还提出了图像级标准化回归损失和基于法向几何损失的方法,以增强混合数据集训练的深度预测模型。该模型在9个不可见数据集上进行了测试,并取得了零样本数据集泛化的最新性能记录。
完成下面两步后,将自动完成登录并继续当前操作。