BriefGPT - AI 论文速递 ·

ConceptMix：一个可控难度的组合图像生成基准

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了基于语言模型的可解释视觉编程框架VPGen和VPEval，旨在实现文本到图像的生成与评估。研究提出了ConceptBed数据集和评估指标CCD，分析了概念学习与组合性之间的权衡。此外，开发了T2I-CompBench基准测试，并提出GORS方法以提升生成能力。通过微调文本嵌入，实现低成本的多概念生成，并提出CompAgent方法以增强图像生成的可控性。最终评估显示，VQAScore在生成速度和准确性上优于其他指标。

🎯

关键要点

本文提出了VPGen和VPEval两个基于语言模型的可解释视觉编程框架，用于文本到图像的生成和评估。
VPGen将文本到图像生成拆分为三个步骤，使用语言模型控制前两个步骤，以提供更强的空间控制。
VPEval是一个解释性评估框架，能够提供针对技能特定和开放性提示的人类相关性评估。
提出了ConceptBed数据集和评估指标CCD，以定量衡量T2I模型在学习和合成新型视觉概念的能力。
研究发现概念学习与保持组合性之间存在权衡。
开发了T2I-CompBench基准测试，包含6000个组合文本提示，并提出了新的生成模型细调和奖励驱动的样本选择方法GORS。
通过微调文本嵌入，实现低成本的多概念生成，并避免不同概念之间的特征混合。
提出了CompAgent方法，能够在复杂文本提示下保持图像的可控性，并引入验证和人类反馈机制来校正属性错误。
VQAScore在生成速度和准确性上优于其他评估指标，特别是在需要高级视觉语言推理的复合提示下，效果显著提升。

❓

延伸问答

VPGen和VPEval的主要功能是什么？

VPGen用于文本到图像的生成，拆分为三个步骤并提供空间控制；VPEval则用于评估生成结果的相关性。

ConceptBed数据集的目的是什么？

ConceptBed数据集旨在定量衡量T2I模型在学习和合成新型视觉概念的能力。

GORS方法在图像生成中有什么作用？

GORS方法用于提高预训练文本到图像模型的组合文本到图像生成能力，通过奖励驱动的样本选择来优化生成效果。

CompAgent方法如何增强图像生成的可控性？

CompAgent通过将文本提示分解为独立的对象、属性和场景布局，并引入人类反馈机制来校正属性错误，从而增强图像生成的可控性。

VQAScore与其他评估指标相比有什么优势？

VQAScore在生成速度和准确性上优于其他指标，特别是在需要高级视觉语言推理的复合提示下效果显著提升。

如何实现低成本的多概念生成？

通过微调文本嵌入，收集与最相似的令牌的语义特征，避免不同概念之间的特征混合，从而实现低成本的多概念生成。

🏷️