腾讯混元团队推出的WorldPlay是一个实时交互的世界模型,解决了生成速度与内存占用之间的平衡。该模型通过双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,实现了长期几何一致性,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力。
浙大团队提出了一种新方法——体素对齐的前馈3D高斯泼溅,解决了二维特征在三维空间对齐及高斯密度受限的问题,提升了多视角渲染的质量与效率。该方法通过将2D特征聚合到3D体素网格中,增强了几何一致性和跨视图稳定性,适用于机器人、自动驾驶及AR/VR等领域。
本研究提出了GC MVSNet++模型,解决了传统多视角立体视觉方法在几何一致性检查中的不足。实验结果表明,该方法加快了学习过程,并在多个数据集上取得了最佳性能,展示了监督学习在多视角和多尺度几何一致性中的潜力。
本研究提出了一种自监督方法,能够从无姿势的互联网照片生成3D一致性视频。该方法利用视频一致性和多视角照片的可变性,训练可扩展的3D感知视频模型,无需3D注释。实验结果表明,该方法在几何和外观一致性方面优于现有基线,适用于需要摄像机控制的应用。
本研究提出M3D框架,旨在解决从单个RGB图像重建3D对象的挑战。该框架采用双流特征提取策略,显著提升了场景理解和重建精度,实验结果表明其在几何一致性和重建保真度方面表现优异。
本研究提出了一种新颖的高斯点云方法,解决了传统高分辨率图像在实时交互中的局限,尤其在稀疏视角下。该方法显著提高了渲染速度并保持几何一致性,实验结果表明其优于现有技术,具有广泛应用潜力。
本研究提出几何解耦网络(GDNet),有效解决压缩深度源中的高质量深度图恢复问题,显著提升几何一致性和细节恢复能力,荣获ECCV 2024一等奖。
本研究提出了一种新方法INTEGER,旨在解决无监督点云配准中的优化目标不足问题。通过特征几何一致性挖掘模块,结合上下文信息和几何线索,动态适应教师网络,生成可靠的伪标签。实验结果表明,INTEGER在准确性和普遍性方面表现优异。
本研究提出了一种3D适配器模块,解决了多视角图像扩散模型在3D几何一致性方面的不足,显著提高了几何质量,支持多种任务,展现出广泛的应用潜力。
GaussCtrl是一种基于文本的方法,用于编辑3D Gaussian Splatting重建的场景。通过3DGS渲染和ControlNet实现多视角一致性编辑,提升速度和视觉质量。其创新在于深度编辑和注意力潜在代码对齐,确保几何和外观一致性。实验表明,该方法比以往更快且效果更好。
本文介绍了一种用于重建密集、几何一致深度的算法,能够处理具有轻度动态运动的挑战性手持捕获输入视频,并提供更高的准确性和几何一致性。改进的重建质量可用于场景重建和高级视频视觉效果。
本文介绍了SyncNoise,一种几何引导的多视角一致噪声编辑方法,通过同步编辑多个视角以实现几何一致性,确保全局一致性。通过深度监督提高多视角对应的可靠性,并在噪声和像素级别上增强几何一致性,实现高质量的3D编辑结果。
该论文提出了一种无监督学习的框架,用于预测形状和姿态。通过多视角观察信号进行训练,并在同一实例的两个视图之间实施几何一致性,独立预测形状和姿态。在ShapeNet数据集上取得了与先前技术相当的竞争成绩,并展示了在现实环境中的适用性。
本文介绍了一种新方法,利用单张卫星图像和相机轨迹合成具有时间和几何一致性的全景视频。该方法使用3D点云表示场景,并通过生成的稠密三维到二维相对应关系实现几何和时间上的一致性。同时使用级联网络和两个Hourglass模块生成粗特征和细特征,最终生成逼真的视频。该方法在实验中表现出优异的结果,超越了其他合成方法,并且是首个成功将跨视角图像合成为视频的方法。
完成下面两步后,将自动完成登录并继续当前操作。