ConceptMix:一个可控难度的组合图像生成基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有文本到图像(T2I)模型组合能力评估的多样性和复杂性不足的问题,提出了ConceptMix,一个可扩展、可控且可定制的基准。通过生成文本提示并评估图像生成结果,ConceptMix展示了与以往基准相比更强的区分能力,特别揭示了随着概念数量增加,多数模型表现显著下降,并为未来的T2I模型开发提供了指导。
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。