ConceptMix:一个可控难度的组合图像生成基准
内容提要
本文介绍了基于语言模型的可解释视觉编程框架VPGen和VPEval,旨在实现文本到图像的生成与评估。研究提出了ConceptBed数据集和评估指标CCD,分析了概念学习与组合性之间的权衡。此外,开发了T2I-CompBench基准测试,并提出GORS方法以提升生成能力。通过微调文本嵌入,实现低成本的多概念生成,并提出CompAgent方法以增强图像生成的可控性。最终评估显示,VQAScore在生成速度和准确性上优于其他指标。
关键要点
-
本文提出了VPGen和VPEval两个基于语言模型的可解释视觉编程框架,用于文本到图像的生成和评估。
-
VPGen将文本到图像生成拆分为三个步骤,使用语言模型控制前两个步骤,以提供更强的空间控制。
-
VPEval是一个解释性评估框架,能够提供针对技能特定和开放性提示的人类相关性评估。
-
提出了ConceptBed数据集和评估指标CCD,以定量衡量T2I模型在学习和合成新型视觉概念的能力。
-
研究发现概念学习与保持组合性之间存在权衡。
-
开发了T2I-CompBench基准测试,包含6000个组合文本提示,并提出了新的生成模型细调和奖励驱动的样本选择方法GORS。
-
通过微调文本嵌入,实现低成本的多概念生成,并避免不同概念之间的特征混合。
-
提出了CompAgent方法,能够在复杂文本提示下保持图像的可控性,并引入验证和人类反馈机制来校正属性错误。
-
VQAScore在生成速度和准确性上优于其他评估指标,特别是在需要高级视觉语言推理的复合提示下,效果显著提升。
延伸问答
VPGen和VPEval的主要功能是什么?
VPGen用于文本到图像的生成,拆分为三个步骤并提供空间控制;VPEval则用于评估生成结果的相关性。
ConceptBed数据集的目的是什么?
ConceptBed数据集旨在定量衡量T2I模型在学习和合成新型视觉概念的能力。
GORS方法在图像生成中有什么作用?
GORS方法用于提高预训练文本到图像模型的组合文本到图像生成能力,通过奖励驱动的样本选择来优化生成效果。
CompAgent方法如何增强图像生成的可控性?
CompAgent通过将文本提示分解为独立的对象、属性和场景布局,并引入人类反馈机制来校正属性错误,从而增强图像生成的可控性。
VQAScore与其他评估指标相比有什么优势?
VQAScore在生成速度和准确性上优于其他指标,特别是在需要高级视觉语言推理的复合提示下效果显著提升。
如何实现低成本的多概念生成?
通过微调文本嵌入,收集与最相似的令牌的语义特征,避免不同概念之间的特征混合,从而实现低成本的多概念生成。