该文章介绍了一种新型文本到图像生成框架RPG,利用多模态大型语言模型(LLMs)增强推理能力,提升图像生成的准确性和一致性。该方法分两个阶段生成图像:首先生成场景布局,然后生成符合布局的图像。实验结果表明,该框架在复杂场景生成方面优于现有模型,如DALL-E 3和SDXL。
完成下面两步后,将自动完成登录并继续当前操作。