InfoQ ·

谷歌推出Nano Banana Pro，具备基于推理的多模态图像合成

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

谷歌推出Nano Banana Pro，结合图像生成与Gemini多模态推理，能够将结构化内容转化为图表和信息图，提升语言理解与图像合成的结合。用户反馈积极，支持多语言文本渲染，适用于包装和UI预览等场景。该模型可合并多张参考图像，保持一致性并输出高分辨率图像，标志着基于推理的图像生成成为新标准。

🎯

关键要点

谷歌推出Nano Banana Pro，结合图像生成与Gemini多模态推理。
Nano Banana Pro能够将结构化内容转化为图表和信息图，提升语言理解与图像合成的结合。
用户反馈积极，生成的资产与品牌一致，文本生成质量提高。
支持多语言文本渲染，能够生成清晰、一致、准确的文本图像。
模型可合并多达14张参考图像，保持一致性，适用于连续性强的故事叙述和活动开发。
提供更精确的创作控制工具，包括本地化编辑、相机角度调整、景深调整等。
所有输出都嵌入SynthID水印，用户可上传图像查询是否由谷歌AI生成。
Nano Banana Pro将在谷歌生态系统中推广，包括Gemini应用、搜索中的AI模式、广告、工作区工具等。

🔎

延伸解读

多模态推理的优势

Nano Banana Pro结合了图像生成与Gemini的多模态推理，能够将结构化内容转化为准确的视觉信息。这种技术的进步使得用户在创建图表和信息图时，不仅能获得美观的视觉效果，还能确保信息的准确性和一致性，适用于各种专业领域的需求。

多语言文本渲染的实用性

该系统支持多语言文本渲染，能够生成清晰且一致的文本图像。这一功能对于需要多语言支持的市场营销和包装设计尤为重要，能够帮助品牌在全球范围内保持一致的视觉形象，提升用户体验。

创作控制工具的提升

Nano Banana Pro提供了更精确的创作控制工具，包括相机角度调整和景深变化等。这些功能使得创作者能够在生产过程中实现更高的灵活性和创意表达，适合需要高质量视觉内容的专业项目。

透明度与版权保护

所有输出都嵌入SynthID水印，用户可以查询图像是否由谷歌AI生成。这一透明度措施不仅保护了创作者的版权，也增强了用户对生成内容的信任，确保在使用过程中能够明确内容的来源。

❓

延伸问答

Nano Banana Pro的主要功能是什么？

Nano Banana Pro结合图像生成与Gemini多模态推理，能够将结构化内容转化为图表和信息图。

用户对Nano Banana Pro的反馈如何？

用户反馈积极，生成的资产与品牌一致，文本生成质量提高。

Nano Banana Pro支持哪些语言？

Nano Banana Pro支持多语言文本渲染，能够生成清晰、一致、准确的文本图像。

Nano Banana Pro如何处理多张参考图像？

该模型可合并多达14张参考图像，保持一致性，适用于连续性强的故事叙述和活动开发。

Nano Banana Pro的创作控制工具有哪些？

提供本地化编辑、相机角度调整、景深调整等精确的创作控制工具。

Nano Banana Pro的输出如何保证透明性？

所有输出都嵌入SynthID水印，用户可上传图像查询是否由谷歌AI生成。

🏷️