小红花·文摘

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

机器之心 ·

本文研究了图像生成模型的现状与进展，提出了一种统一语言界面，将计算机视觉任务转化为文本到图像生成问题。通过使用大规模语言模型和InstructPix2Pix架构，创建了多模态训练数据集，提升了模型在视觉任务中的表现和泛化能力。同时，探讨了基于Transformer的扩散模型在图像和视频生成中的应用，推动了计算机视觉领域的创新。

OmniGen：统一图像生成

BriefGPT - AI 论文速递 ·