草图引导的场景图像生成
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用预训练的扩散模型将每个单独的对象绘图转换为对象的图像,并通过使用全局提示来推断混合的潜在表示以生成场景图像,本研究提出了一种新颖的以素描为导向的场景图像生成框架,分离了对象级跨域生成和场景级图像构建的任务。
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。