智源推出了新型多模态图像生成模型OmniGen,支持文生图和图像编辑等多种任务。其架构简化、用户友好,能够有效迁移知识并处理经典计算机视觉任务。OmniGen集成多项能力,简化复杂流程,未来将进一步改进和扩展功能。
研究者提出了一种统一语言界面,将计算机视觉任务转化为文本到图像生成问题。通过改写提示模板,创建了一个多模态和多任务训练数据集。实验证明,该模型在与其他综合和特定任务视觉模型的竞争中表现出色,并具备泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。