The Keyword ·

在Gemini 3 Flash中引入Agentic Vision

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程，提升了视觉任务的处理能力。它结合视觉推理与代码执行，允许模型逐步分析和操作图像，显著提高准确性，并支持图像缩放、注释和可视化计算，增强推理能力，未来将扩展更多功能。

🎯

🔎

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程，显著提升了视觉任务的处理能力。这种主动性使得模型能够在分析图像时，逐步生成和执行代码，从而更精确地处理细节，避免了传统模型的静态局限性。

Agentic Vision的引入为开发者提供了丰富的应用场景，如图像注释和视觉数学计算。通过在Google AI Studio和Vertex AI中使用Gemini API，开发者可以探索新的功能，提升产品的智能化水平，满足多样化的市场需求。

Gemini 3 Flash的Agentic Vision仍在不断发展，未来将扩展更多隐式代码驱动行为和工具。这意味着模型将能够更智能地处理复杂任务，提升用户体验，值得关注其后续更新和功能扩展。

❓

Agentic Vision将图像理解转变为主动过程，结合视觉推理与代码执行，允许模型逐步分析和操作图像。

通过代码执行，Gemini 3 Flash在大多数视觉基准测试中提高了5-10%的质量。

Think阶段分析用户查询和初始图像，Act阶段生成并执行Python代码，Observe阶段将变换后的图像添加到模型的上下文中。

模型可以执行代码直接在画布上绘制，以增强推理能力，例如在识别手指时绘制边界框和数字标签。

它能够解析高密度表格并执行Python代码，避免了多步骤视觉算术中的错误，提供可验证的执行结果。

Agentic Vision通过Gemini API在Google AI Studio和Vertex AI中可用，开发者可以在AI Studio Playground中启用“代码执行”进行实验。

🏷️