InfoQ ·

谷歌推出Gemini 2.5 Flash Image，具备先进的编辑和一致性功能

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌发布了Gemini 2.5 Flash Image（昵称nano-banana），这是最新的图像生成与编辑模型。该系统在角色一致性、多图像融合和精确编辑等方面进行了升级，增强了语义理解能力，支持自然语言描述的图像编辑，允许用户进行背景调整和对象替换。该模型结合世界知识，提升了语义推理能力，适用于教育和房地产等领域。

🎯

关键要点

谷歌发布了Gemini 2.5 Flash Image（昵称nano-banana），这是最新的图像生成与编辑模型。
该系统在角色一致性、多图像融合和精确编辑等方面进行了升级，增强了语义理解能力。
Gemini 2.5 Flash Image支持自然语言描述的图像编辑，允许用户进行背景调整和对象替换。
该模型结合世界知识，提升了语义推理能力，适用于教育和房地产等领域。
Gemini 2.5 Flash Image在角色一致性方面表现出色，能够在多个提示或编辑中保持同一主题的可识别性。
该模型支持基于提示的图像编辑，用户可以用自然语言描述具体的更改。
多图像融合功能允许将多个输入的特征合并为单一结果。
Gemini 2.5 Flash Image集成了世界知识，增强了语义推理能力，适用于手绘图解读和房地产模板适配等场景。
工业设计师Thomas Broen对该模型的编辑能力表示赞赏，认为其能够有效地编辑图像并恢复原始图像。
该模型在低延迟和高效性方面建立在Gemini 2.0 Flash的基础上，并直接采纳了社区反馈以提高输出质量和编辑控制。
Gemini 2.5 Flash Image现已通过Gemini API、Google AI Studio和Vertex AI提供预览，预计在未来几周内实现完全稳定。
定价已确认为每百万个输出令牌30美元，每幅图像约0.039美元。

🔎

延伸解读

角色一致性的重要性

Gemini 2.5 Flash Image在角色一致性方面的提升，解决了生成模型中常见的主题识别问题。这一功能对于需要在多个场景中保持角色一致性的应用，如动画制作和游戏开发，具有重要意义。用户可以更轻松地创建连贯的视觉故事，提升作品的专业性。

自然语言编辑的实用性

该模型支持用户通过自然语言进行图像编辑，这一功能极大地降低了技术门槛。无论是教育工作者还是房地产专业人士，都可以利用这一工具快速实现视觉内容的调整，提升工作效率。这种直观的编辑方式使得非专业用户也能轻松上手，拓宽了其应用场景。

多图像融合的应用前景

Gemini 2.5 Flash Image的多图像融合功能允许用户将多个输入特征合并为单一结果，这在设计和创意领域具有广泛的应用潜力。设计师可以通过这一功能快速生成复杂的视觉效果，提升创作效率，尤其在需要快速迭代的项目中表现尤为突出。

❓

延伸问答

Gemini 2.5 Flash Image的主要功能是什么？

Gemini 2.5 Flash Image主要功能包括角色一致性、多图像融合和精确的基于提示的图像编辑。

Gemini 2.5 Flash Image如何支持自然语言描述的图像编辑？

该模型允许用户用自然语言描述具体的更改，如背景调整和对象替换。

Gemini 2.5 Flash Image在角色一致性方面有什么优势？

该模型能够在多个提示或编辑中保持同一主题的可识别性，解决了生成模型中的常见难题。

Gemini 2.5 Flash Image的多图像融合功能是如何工作的？

多图像融合功能允许将多个输入的特征合并为单一结果，增强了图像生成的灵活性。

Gemini 2.5 Flash Image适用于哪些领域？

该模型适用于教育和房地产等领域，能够处理需要语义推理的任务。

Gemini 2.5 Flash Image的定价是多少？

定价为每百万个输出令牌30美元，每幅图像约0.039美元。

🏷️