小红花·文摘

交互式世界建模新方案！腾讯混元发布世界模型WorldPlay，兼顾实时生成与长期几何一致性；5万条样本！Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经 ·

浙大团队提出了一种新方法——体素对齐的前馈3D高斯泼溅，解决了二维特征在三维空间对齐及高斯密度受限的问题，提升了多视角渲染的质量与效率。该方法通过将2D特征聚合到3D体素网格中，增强了几何一致性和跨视图稳定性，适用于机器人、自动驾驶及AR/VR等领域。

前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

量子位 ·

本研究提出了GC MVSNet++模型，解决了传统多视角立体视觉方法在几何一致性检查中的不足。实验结果表明，该方法加快了学习过程，并在多个数据集上取得了最佳性能，展示了监督学习在多视角和多尺度几何一致性中的潜力。

Combining 3D Geometry and Machine Learning for Multi-View Stereo Vision

BriefGPT - AI 论文速递 ·

本研究提出了一种自监督方法，能够从无姿势的互联网照片生成3D一致性视频。该方法利用视频一致性和多视角照片的可变性，训练可扩展的3D感知视频模型，无需3D注释。实验结果表明，该方法在几何和外观一致性方面优于现有基线，适用于需要摄像机控制的应用。

Generating 3D-Consistent Videos from Unposed Internet Photos

BriefGPT - AI 论文速递 ·

本研究提出M3D框架，旨在解决从单个RGB图像重建3D对象的挑战。该框架采用双流特征提取策略，显著提升了场景理解和重建精度，实验结果表明其在几何一致性和重建保真度方面表现优异。

M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的高斯点云方法，解决了传统高分辨率图像在实时交互中的局限，尤其在稀疏视角下。该方法显著提高了渲染速度并保持几何一致性，实验结果表明其优于现有技术，具有广泛应用潜力。

GPS-Gaussian+: A Generalizable Pixel-wise 3D Gaussian Splatting Technique for Fast Rendering of Human-Scene Interactions

BriefGPT - AI 论文速递 ·

本研究提出几何解耦网络（GDNet），有效解决压缩深度源中的高质量深度图恢复问题，显著提升几何一致性和细节恢复能力，荣获ECCV 2024一等奖。

解耦细节与全局几何用于压缩深度图超分辨率

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法INTEGER，旨在解决无监督点云配准中的优化目标不足问题。通过特征几何一致性挖掘模块，结合上下文信息和几何线索，动态适应教师网络，生成可靠的伪标签。实验结果表明，INTEGER在准确性和普遍性方面表现优异。

无监督点云配准中的特征几何一致性挖掘与转移

BriefGPT - AI 论文速递 ·

本研究提出了一种3D适配器模块，解决了多视角图像扩散模型在3D几何一致性方面的不足，显著提高了几何质量，支持多种任务，展现出广泛的应用潜力。

3D适配器：几何一致的多视角扩散用于高质量3D生成

BriefGPT - AI 论文速递 ·

GaussCtrl是一种基于文本的方法，用于编辑3D Gaussian Splatting重建的场景。通过3DGS渲染和ControlNet实现多视角一致性编辑，提升速度和视觉质量。其创新在于深度编辑和注意力潜在代码对齐，确保几何和外观一致性。实验表明，该方法比以往更快且效果更好。

GS-VTON：可控的三维虚拟试衣与高斯洒点技术

BriefGPT - AI 论文速递 ·

本文介绍了一种用于重建密集、几何一致深度的算法，能够处理具有轻度动态运动的挑战性手持捕获输入视频，并提供更高的准确性和几何一致性。改进的重建质量可用于场景重建和高级视频视觉效果。

双视：几何引导的深度估计

BriefGPT - AI 论文速递 ·

本文介绍了SyncNoise，一种几何引导的多视角一致噪声编辑方法，通过同步编辑多个视角以实现几何一致性，确保全局一致性。通过深度监督提高多视角对应的可靠性，并在噪声和像素级别上增强几何一致性，实现高质量的3D编辑结果。

SyncNoise: 文本驱动的三维场景编辑中的几何一致噪声预测

BriefGPT - AI 论文速递 ·

该论文提出了一种无监督学习的框架，用于预测形状和姿态。通过多视角观察信号进行训练，并在同一实例的两个视图之间实施几何一致性，独立预测形状和姿态。在ShapeNet数据集上取得了与先前技术相当的竞争成绩，并展示了在现实环境中的适用性。

使用动作线索监督低数据环境下的单帧身体姿势和形状估计

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，利用单张卫星图像和相机轨迹合成具有时间和几何一致性的全景视频。该方法使用3D点云表示场景，并通过生成的稠密三维到二维相对应关系实现几何和时间上的一致性。同时使用级联网络和两个Hourglass模块生成粗特征和细特征，最终生成逼真的视频。该方法在实验中表现出优异的结果，超越了其他合成方法，并且是首个成功将跨视角图像合成为视频的方法。

利用街景视频序列自动构建交通分析的时空图

BriefGPT - AI 论文速递 ·