北京大学的VDIG实验室与合作者发布了GALA3D,一个高质量的Text-to-3D复杂场景生成与可控编辑框架。GALA3D能够生成具有多物体和复杂交互关系的三维场景,并支持对话式交互的可控编辑。该研究在生成场景质量、多物体复杂交互、场景几何一致性等方面表现出卓越性能,并超越了现有的文生3D场景方法。
该文章介绍了一种新型文本到图像生成框架RPG,利用多模态大型语言模型(LLMs)增强推理能力,提升图像生成的准确性和一致性。该方法分两个阶段生成图像:首先生成场景布局,然后生成符合布局的图像。实验结果表明,该框架在复杂场景生成方面优于现有模型,如DALL-E 3和SDXL。
完成下面两步后,将自动完成登录并继续当前操作。