机器之心 ·

3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

VGGT（视觉几何基础变换器）是牛津大学与Meta AI联合研发的3D视觉模型，能够快速推理相机参数和深度图，性能超越传统方法。该模型采用纯前馈设计，显著提升推理速度和精度，展现出强大的泛化能力，标志着3D视觉领域的重要突破。

🎯

🔎

VGGT的推出标志着3D视觉技术的重大变革。传统方法依赖复杂的几何优化，而VGGT通过一次前向推理完成所有任务，显著提高了效率。这种转变可能会影响未来3D视觉应用的开发，尤其是在实时处理和大规模数据分析方面。

VGGT展现出强大的跨任务泛化能力，尽管未专门训练单图重建任务，仍能取得优异表现。这一特性使得VGGT在多种应用场景中具有更广泛的适用性，尤其是在数据稀缺或任务多样化的情况下，能够有效降低开发成本和时间。

VGGT的成功可能引领3D视觉领域向数据驱动的基础模型时代迈进。未来的研究可以集中在如何进一步提升模型的泛化能力和处理复杂场景的能力，探索更高效的训练方法和应用场景，以推动3D视觉技术的广泛应用。

❓

VGGT模型能够从单张、多张甚至上百张图像中快速推理出相机参数、深度图、点云及3D轨迹等核心几何信息。

VGGT通过一次前向传播完成所有几何推理任务，推理速度提升近50倍，且无需复杂的后处理优化，性能显著超越传统方法。

VGGT采用纯前馈设计，结合Transformer架构和大规模3D数据训练，通过自注意力机制动态关联图像Tokens，实现高效推理。

VGGT能够轻松应对不同数量图像及复杂场景的重建，表现出色，甚至在无重叠视图的极端案例中也能精准重建。

VGGT展现出强大的跨任务泛化能力，即便未接受单图训练，仍在单目重建任务中表现优异，接近单目SOTA水平。

VGGT的成功标志着3D视觉领域可能迎来基础模型的新时代，推动视觉几何从手工设计向数据驱动的转变。

🏷️