小红花·文摘

本文介绍了一种基于对话的3D场景编辑方法CE3D，利用大型语言模型为中心，允许用户通过文本输入解析意图，并调用相应的视觉专家模型。通过设计利用Hash-Atlas表示3D场景视图的方案，将3D场景编辑转移到2D图像上，实现了2D编辑和3D重建过程的解耦。实验结果表明，CE3D能够整合多个视觉模型，实现多样的编辑视觉效果，并具备强大的场景理解能力和多轮对话功能。