量子位 ·

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

VGGT-Edit是一种新型3D编辑框架，旨在直接在3D空间中进行编辑，避免传统2D方法的不稳定性。该模型通过残差场预测和深度同步文本注入，实现快速、稳定的3D场景修改，单次编辑约需5秒，速度提升可达120倍。研究团队构建了DeltaScene数据集，以确保多视角下的几何一致性，推动3D编辑技术的发展。

🎯

关键要点

VGGT-Edit是一种新型3D编辑框架，旨在直接在3D空间中进行编辑，避免传统2D方法的不稳定性。
VGGT-Edit通过残差场预测和深度同步文本注入，实现快速、稳定的3D场景修改，单次编辑约需5秒，速度提升可达120倍。
研究团队构建了DeltaScene数据集，以确保多视角下的几何一致性，推动3D编辑技术的发展。
VGGT-Edit的核心思路是直接在3D空间中完成编辑，而不是依赖于2D处理。
该框架在语义一致性、多视角稳定性和推理速度上均超过现有方法，特别适合机器人、AR/VR等应用场景。
VGGT-Edit设计了专门的编辑头，关注如何在保持整体稳定的情况下，只修改局部区域。
模型能够理解文本语义如何映射到3D空间变化，具备处理未见过指令的能力，显示出其智能化的潜力。

🔎

延伸解读

3D编辑的技术突破

VGGT-Edit通过直接在3D空间中进行编辑，解决了传统2D方法带来的不稳定性。这一技术突破使得3D场景的修改更加快速和高效，尤其在复杂编辑任务中表现出色，能够保持多视角下的几何一致性，适用于机器人和AR/VR等领域。

DeltaScene数据集的重要性

研究团队构建的DeltaScene数据集为VGGT-Edit的训练提供了坚实基础。该数据集涵盖多种场景，确保了模型在不同视角下的稳定性和一致性。这种自动化的数据生成流程对于提升3D编辑技术的实用性至关重要。

实时交互的潜力

VGGT-Edit的编辑速度可达每次约5秒，最高实现120倍加速，这使得3D编辑首次接近实时交互。这一进展对于未来的数字孪生和空间智能应用具有重要意义，能够让用户在3D环境中进行更自然的互动。

🏷️