量子位 ·

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

腾讯推出混元图像2.0，实现边说边画的实时图像生成，响应速度达到毫秒级。用户可通过文字或手绘输入，系统即时生成图像。该模型具备更大参数和高效图像编解码器，提升了生成效果和真实感。

🎯

🔎

混元图像2.0的实时生成能力为创意工作者提供了新的工具，尤其在设计、广告和游戏开发等领域，用户可以快速将想法转化为视觉效果。这种高效的图像生成方式能够显著提升工作效率，减少创作过程中的等待时间。

Hunyuan Image 2.0通过强化学习和自研编解码器提升了生成图像的真实感和速度。然而，用户在使用时仍需注意，模型对中文的理解可能不如英文准确，可能影响生成效果。用户在输入时可考虑使用英文以获得更佳结果。

腾讯即将发布的原生多模态图像生成大模型，预示着未来图像生成技术将更加智能化和互动化。用户可以期待更丰富的交互体验和多轮生成能力，这将为创作带来更多可能性，尤其是在教育和娱乐领域。

❓

混元图像2.0实现了边说边画的实时图像生成，用户可以通过文字或手绘输入即时生成图像。

混元图像2.0的响应速度达到毫秒级，能够实时生成图像。

用户可以通过文字输入、手绘草图或实时语音输入来生成图像。

该模型具有更大的参数、超高压缩倍率的图像编解码器、适配多模态大语言模型和强化学习后训练等技术亮点。

用户可以点击“画面优化”功能，自动优化图像的构图、景深层次和光影效果。

腾讯混元团队计划发布原生多模态图像生成大模型，具备多轮图像生成和实时交互体验。

🏷️