进化导演：利用大型视觉语言模型接近先进的文本到图像生成

本研究解决了现有文本到图像生成模型受限于专有数据和访问限制的问题。我们提出了EvolveDirector框架，通过公共API获得文本-图像数据对来训练基础模型，并利用预训练的大型视觉语言模型指导其演化，最终训练出的模型Edgen在性能上超过了多个先进模型。此工作显著降低了数据需求量和相关成本，展示了其在生成领域的潜在影响。

生成式扩散模型在文本控制下的图像合成取得进展。本文提出统一的计算机视觉任务语言界面，将多个视觉任务转化为文本到图像生成。通过大规模语言模型改写任务提示模板，创建多模态、多任务训练数据集。使用 InstructPix2Pix 架构调节模型，实现基于指导的多任务视觉学习。实验显示，InstructCV 模型在任务表现和泛化能力上表现优异。

InstructCV InstructPix2Pix 多模态文本到图像生成式扩散模型语言模型