程序师 ·

通义千问首个图像生成基础模型：Qwen-Image

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

通义千问推出的Qwen-Image是一个20B的图像生成模型，具备卓越的文本渲染和一致的图像编辑能力，尤其在中文文本渲染方面表现突出，支持复杂场景和多种艺术风格，旨在推动图像生成技术的发展。

🎯

🔎

Qwen-Image在中文文本渲染方面表现尤为突出，支持复杂的多行布局和段落级文本生成。这使得它在需要高保真文本输出的场景中，尤其适合艺术创作和广告设计，能够为用户提供更高的创作自由度和表达能力。

该模型不仅在生成图像方面表现出色，还具备强大的图像编辑功能，包括风格迁移和细节增强等。这意味着用户可以轻松实现专业级的图像处理，降低了创作门槛，适合各类用户从业者使用。

Qwen-Image通过增强的多任务训练保持了编辑的一致性，这对于需要频繁修改和调整的创作过程至关重要。用户在进行图像编辑时，可以更放心地进行多次调整，而不必担心输出质量的下降。

❓

Qwen-Image是一个20B的图像生成基础模型。

Qwen-Image在复杂文本渲染方面表现出色，支持多行布局和段落级文本生成，尤其在中文文本渲染上表现突出。

Qwen-Image的图像编辑功能包括风格迁移、增删改、细节增强等多种操作。

Qwen-Image在多个公开基准测试中表现出色，获得了最先进的性能（SOTA）。

Qwen-Image支持中英双语的文本渲染。

Qwen-Image旨在推动图像生成技术的发展，激发更多创新应用。

🏷️