量子位 ·

可能是目前效果最好的开源生图模型，混元生图3.0来了

Q: 混元图像3.0的参数规模是多少？

混元图像3.0的参数规模高达80B。

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

腾讯发布的混元图像3.0是当前参数最多的开源生图模型，拥有80B参数，支持多分辨率图像生成，具备强大的指令遵从和文字渲染能力，效果媲美领先的闭源模型。

🎯

关键要点

腾讯发布的混元图像3.0是当前参数最多的开源生图模型，拥有80B参数。
混元图像3.0支持多分辨率图像生成，具备强大的指令遵从和文字渲染能力。
该模型融合了文本理解、视觉理解与高保真图像生成，效果媲美领先的闭源模型。
混元图像3.0采用VAE+ViT的双编码器结构，精准解析图像内容。
引入广义因果注意力，兼顾语言因果推理与图像全局建模。
模型经过多阶段训练，逐步提升图像分辨率和复杂性。
评测结果显示，混元图像3.0在语义一致性和生成效果上超越业界领先模型。
模型开源，代码与权重同步释出，支持社区使用与开发。

🔎

延伸解读

开源模型的优势与挑战

混元图像3.0作为开源生图模型，具备强大的生成能力和灵活性，能够满足多种创作需求。然而，开源模型在商业应用中可能面临知识产权和数据安全等挑战，用户需谨慎评估其适用性。

技术架构的创新

混元图像3.0采用VAE+ViT的双编码器结构，结合广义因果注意力，提升了图像生成的语义一致性和细节控制。这种创新架构为多模态生成提供了新的思路，值得关注其在其他领域的应用潜力。

社区参与的重要性

该模型的开源特性鼓励社区参与和开发，用户可以根据自身需求进行定制和优化。这种开放性不仅促进了技术的快速迭代，也为开发者提供了丰富的学习和实践机会。

❓

延伸问答

混元图像3.0的参数规模是多少？

混元图像3.0的参数规模高达80B。

混元图像3.0支持哪些图像生成能力？

混元图像3.0支持多分辨率图像生成，具备强大的指令遵从和文字渲染能力。

混元图像3.0的技术架构是什么？

混元图像3.0采用VAE+ViT的双编码器结构，融合文本理解与视觉理解。

混元图像3.0与闭源模型相比如何？

混元图像3.0的效果媲美领先的闭源模型，甚至在某些评测中超越它们。

混元图像3.0是如何进行训练的？

混元图像3.0经过多阶段训练，逐步提升图像分辨率和复杂性，采用图文交织训练方式。

混元图像3.0的开源情况如何？

混元图像3.0完全开源，代码与权重同步释出，支持社区使用与开发。

🏷️