ModelScope团队推出了开源全能图像模型Nexus-Gen,具备图像理解、生成和编辑能力,性能接近GPT-4o。该模型结合了MLLMs的语言建模与扩散模型的图像建模,采用高维特征空间建模以提升图像质量,解决了误差累计问题。Nexus-Gen的训练数据来自开源社区,未来将继续优化并开源相关资源。
本研究提出Nexus-Gen模型,通过双阶段对齐训练,将语言推理与图像生成相结合,提升了图像理解与生成的质量,解决了现有多模态模型在特定领域的不足。
完成下面两步后,将自动完成登录并继续当前操作。