InfoQ ·

Qwen团队开源了先进的图像模型Qwen-Image

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Qwen团队开源了Qwen-Image图像基础模型，支持文本生成与编辑，性能优于其他模型，尤其在文本渲染方面表现突出。该模型在多个基准测试中得分高，并在AI Arena中排名第三。团队收集了数十亿图像-文本对，设计了多种训练策略，实现了高质量图像生成。

🎯

🔎

Qwen-Image不仅是一个先进的图像生成模型，它还代表了多模态基础模型构建的范式转变。这意味着未来的模型可能会更加注重不同模态之间的交互，推动生成模型在感知和界面设计中的应用。

Qwen团队在构建训练数据集时，严格筛选了数十亿个图像-文本对，确保数据质量。这种高标准的筛选和详细的注释框架为模型的高性能奠定了基础，值得其他研究团队借鉴。

Qwen-Image采用了两阶段的后训练策略，首先进行监督微调，然后通过强化学习优化模型输出。这种方法不仅提高了生成图像的质量，也为模型的进一步发展提供了新的思路。

❓

Qwen-Image支持文本生成与编辑，能够进行文本到图像和图像到图像的编辑任务。

Qwen-Image在多个基准测试中得分高，尤其在文本渲染方面表现突出，排名第三。

Qwen团队收集并注释了数十亿个图像-文本对，主要包括自然、设计、人物和合成数据四大类。

该模型使用Qwen2.5-VL处理文本输入，使用变分自编码器（VAE）处理图像输入。

模型经过两阶段的后训练，首先是监督微调（SFT），然后是强化学习（RL）。

Qwen-Image在文本渲染方面表现优于其他模型，并在AI Arena中排名第三。

🏷️