小红花·文摘

该文章介绍了一种新型文本到图像生成框架RPG，利用多模态大型语言模型（LLMs）增强推理能力，提升图像生成的准确性和一致性。该方法分两个阶段生成图像：首先生成场景布局，然后生成符合布局的图像。实验结果表明，该框架在复杂场景生成方面优于现有模型，如DALL-E 3和SDXL。