量子位 ·

开源全能图像模型媲美GPT-4o！解决扩散模型误差累计问题

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

ModelScope团队推出了开源全能图像模型Nexus-Gen，具备图像理解、生成和编辑能力，性能接近GPT-4o。该模型结合了MLLMs的语言建模与扩散模型的图像建模，采用高维特征空间建模以提升图像质量，解决了误差累计问题。Nexus-Gen的训练数据来自开源社区，未来将继续优化并开源相关资源。

🎯

关键要点

ModelScope团队推出开源全能图像模型Nexus-Gen，具备图像理解、生成和编辑能力。
Nexus-Gen的性能接近GPT-4o，结合了MLLMs的语言建模与扩散模型的图像建模。
模型采用高维特征空间建模以提升图像质量，解决了误差累计问题。
Nexus-Gen的训练数据来自开源社区，未来将继续优化并开源相关资源。
模型采用token → [transformer] → [diffusion] → pixels的技术路线，支持图像和文本模态的输入输出。
通过高维特征空间建模，Nexus-Gen实现了图像理解、生成和编辑任务的相互促进。
预填充自回归策略解决了训练和推理阶段不一致导致的误差累计问题。
团队收集了约25M训练数据，涵盖图像理解、生成和编辑任务。
Nexus-Gen的功能展示包括图像理解、生成和编辑的可视化案例。
未来将继续在模型融合训练、图像Token数量提升等方面进行优化探索。

🔎

延伸解读

模型的创新性与优势

Nexus-Gen模型通过结合MLLMs的语言建模与扩散模型的图像建模，展现了全新的技术路线。这种创新不仅提升了图像生成和编辑的质量，还解决了传统模型在处理多模态任务时的局限性，展示了更强的灵活性和适应性。

误差累计问题的解决

Nexus-Gen采用的预填充自回归策略有效解决了训练与推理阶段不一致导致的误差累计问题。这一策略确保了模型在生成图像时的稳定性，减少了因误差传播而导致的质量下降，为图像生成领域提供了新的思路。

开源社区的支持与未来发展

Nexus-Gen的训练数据来自开源社区，未来将继续优化并开源相关资源。这种开放的态度不仅促进了技术的共享与交流，也为开发者提供了丰富的实验基础，推动了全模态模型的进一步发展。

❓

延伸问答

Nexus-Gen模型的主要功能是什么？

Nexus-Gen模型具备图像理解、生成和编辑能力。

Nexus-Gen是如何解决误差累计问题的？

通过预填充自回归策略，确保训练和推理阶段行为一致，从而消除误差累计。

Nexus-Gen的训练数据来源是什么？

Nexus-Gen的训练数据来自开源社区，约有25M的数据。

Nexus-Gen与GPT-4o相比有什么相似之处？

Nexus-Gen在图像质量和编辑能力上与GPT-4o相当，并且采用类似的技术路线。

Nexus-Gen的技术路线是什么？

Nexus-Gen采用token → [transformer] → [diffusion] → pixels的技术路线。

未来Nexus-Gen的优化方向有哪些？

未来将继续在模型融合训练、图像Token数量提升等方面进行优化探索。

🏷️