利用大型语言模型从文本中提取前景对象的边界框、描述和背景信息。这些组件用于布局图像生成模型,通过两个阶段生成全局场景,并使用迭代细化方案确保与文本描述一致。研究表明,该方法在生成复杂场景时更有效。
完成下面两步后,将自动完成登录并继续当前操作。