ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了

ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了

💡 原文约300字/词,阅读约需1分钟。
📝

内容提要

北京大学的VDIG实验室与合作者发布了GALA3D,一个高质量的Text-to-3D复杂场景生成与可控编辑框架。GALA3D能够生成具有多物体和复杂交互关系的三维场景,并支持对话式交互的可控编辑。该研究在生成场景质量、多物体复杂交互、场景几何一致性等方面表现出卓越性能,并超越了现有的文生3D场景方法。

🎯

关键要点

  • 北京大学VDIG实验室与合作者发布了GALA3D,一个高质量的Text-to-3D复杂场景生成与可控编辑框架。
  • GALA3D能够生成具有多物体和复杂交互关系的三维场景,并支持对话式交互的可控编辑。
  • 该研究在生成场景质量、多物体复杂交互、场景几何一致性等方面表现出卓越性能,超越了现有的文生3D场景方法。
  • GALA3D的整体架构利用大型语言模型生成初始布局,并通过自适应几何控制优化3D高斯的形状和分布。
  • GALA3D提出了一种组合优化机制,结合条件扩散先验和文生图模型,协作生成具有一致风格的3D多物体场景。
  • GALA3D的Layout Refinement模块对LLMs生成的布局先验进行优化,确保生成的3D场景具有合理的空间位置和比例尺度。
  • 实验结果表明GALA3D在生成场景质量、几何保真度、文本一致性等多维度测评指标中均超越现有方法,取得最优生成质量。
  • GALA3D支持用户友好的对话式可控生成和编辑,用户可以轻松定制和编辑3D场景。
➡️

继续阅读