利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。生成的全局场景经过迭代细化,以确保与文本描述的一致性。经用户研究验证,我们的方法在从错综复杂的文本输入中生成连贯详细场景方面比传统扩散模型更好。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: