小红花·文摘

利用大型语言模型从文本中提取前景对象的边界框、描述和背景信息。这些组件用于布局图像生成模型，通过两个阶段生成全局场景，并使用迭代细化方案确保与文本描述一致。研究表明，该方法在生成复杂场景时更有效。