小红花·文摘

本文提出了基于语言模型的视觉编程框架VPGen和VPEval，用于文本到图像生成和评估。VPGen通过三个步骤实现高保真度图像生成，VPEval提供人类相关性评估。研究还介绍了新型空间-语义地图引导扩散模型，显著提升生成质量和可控性，并提出改进的文本到图像生成方法，解决复杂场景生成中的布局理解问题。