本文提出了一种新方法,通过生成归一化坐标空间(NCS)帧与RGB帧,改进多视图图像生成,增强3D一致性。该方法在训练中联合估计RGB和NCS帧,利用去噪修补策略推断条件分布,提升相机姿态估计能力,建立统一的3D模型基准。
本研究提出DiET-GS框架,结合无模糊事件流和扩散先验,解决模糊多视图图像重建清晰3D表示的问题。采用两阶段训练策略,显著提高新视图质量,准确恢复颜色和细节,实验结果优于现有模型。
本研究提出高斯图网络(GGN),有效解决了多视图图像中高斯表示的效率和泛化性问题。实验结果表明,该模型在使用更少高斯的情况下,图像质量和渲染速度优于现有技术。
本研究提出了一系列基于扩散模型的3D生成方法,结合深度先验和生成约束,提升了三维场景重建的质量和效率。新方法如IB-planes和latentSplat在多视图图像生成和重建中表现优越,显著降低了训练成本并提高了生成速度,适用于复杂场景。
本文提出了一种通用框架,通过情景表示变换器和视图条件扩散模型,从单个图像生成一致的多视图图像。该模型利用多视图注意力和极线几何约束,确保三维一致性,超越了现有方法的评估指标,并展示了在个性化3D生成和新视点合成中的高效应用。
该研究介绍了多种基于视频扩散模型的3D生成方法,如One-2-3-45++和Envision3D,能够从单张图像快速生成高质量的3D纹理网格和多视图图像。这些方法通过新算法和框架显著提高了生成效率和几何一致性,适用于个性化3D生成和新视角合成。
本文介绍了多视图图像在自动驾驶中的应用,提出了FastOcc、SelfOcc和CoBEVT等新方法,以提高3D场景占用预测的准确性和效率。这些方法通过自监督学习和轻量级网络设计,显著提升了模型性能,尤其在SemanticKITTI和nuScenes数据集上取得了先进的结果。
本研究提出了一种基于自我监督学习的3D人体姿态估计方法EpipolarPose,通过多视图图像中的2D姿态估计3D姿态,无需依赖3D真实数据或相机外参。实验结果显示,该方法在Human3.6M和MPI-INF-3DHP数据集上表现优异,并引入了新的性能度量Pose Structure Score(PSS)。
本文介绍了一种基于预训练视频扩散模型的3D生成方法MVDream,能够生成高质量的多视图图像。该模型通过几何一致性和多视图注意力机制提升新视角合成效果,并在大规模数据集上训练,性能优于现有模型。此外,MVEdit框架实现高效的3D对象合成,Sparse3D方法在稀疏视角输入下保持高质量重建。
本文介绍了一种新颖的混合可微渲染方法,能够从传统手持相机捕捉的多视图图像中高效重构场景的三维几何和反射率。该方法在初始化阶段使用传统的SfM和MVS方法进行大致重建,然后在优化阶段采用混合方法优化几何和反射率。实验证明,该方法在更高效的同时能够产生与最先进方法相似或更高质量的重建结果。
本文介绍了一种新的单阶段框架NePF,用于解决多视图图像中的逆渲染问题。NePF通过统一恢复几何、材质和光照属性,并引入了基于坐标的快速体积物理渲染照明模型。实验结果表明,该方法在恢复几何和材料属性方面具有优越性。
本文介绍了一种新颖的混合可微渲染方法,能够从传统手持相机捕捉的多视图图像中高效重构场景的三维几何和反射率。方法分为初始化和优化两个阶段,使用传统的SfM和MVS方法进行大致重建,然后采用混合方法优化几何和反射率。实验证明,该方法在更高效的同时能够产生高质量的重建结果。
完成下面两步后,将自动完成登录并继续当前操作。