具有 LLM 增强提示和多源监督的知识感知艺术品图像合成
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种新颖的知识感知艺术品图像合成方法,准确地将历史遗失的对象恢复为视觉形式,通过构造带有显式考古知识的提示、引入额外的文本指导以及应用视觉 - 语义约束,使模型能够学习更多细节,并生成更高质量的艺术品图像。
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。