本文提出了基于语言模型的视觉编程框架VPGen和VPEval,用于文本到图像生成和评估。VPGen通过三个步骤实现高保真度图像生成,VPEval提供人类相关性评估。研究还介绍了新型空间-语义地图引导扩散模型,显著提升生成质量和可控性,并提出改进的文本到图像生成方法,解决复杂场景生成中的布局理解问题。
完成下面两步后,将自动完成登录并继续当前操作。