进化导演:利用大型视觉语言模型接近先进的文本到图像生成

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

生成式扩散模型在文本控制下的图像合成取得进展。本文提出统一的计算机视觉任务语言界面,将多个视觉任务转化为文本到图像生成。通过大规模语言模型改写任务提示模板,创建多模态、多任务训练数据集。使用 InstructPix2Pix 架构调节模型,实现基于指导的多任务视觉学习。实验显示,InstructCV 模型在任务表现和泛化能力上表现优异。

原文中文,约500字,阅读约需2分钟。
阅读原文