InfoQ ·

谷歌通过代理视觉大幅提升Gemini 3 Flash

Q: 谷歌声称解决了什么难题？

谷歌声称解决了手上数字计数的难题。

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌在Gemini 3 Flash中引入代理视觉，结合视觉推理与代码执行，通过“思考-行动-观察”循环分析图像并执行Python代码，提升视觉任务准确率5-10%。该方法细致检查图像细节，增强视觉推理能力，未来将扩展更多功能。

🎯

关键要点

谷歌在Gemini 3 Flash中引入代理视觉，结合视觉推理与代码执行。
该方法通过“思考-行动-观察”循环分析图像并执行Python代码。
此方法提升视觉任务准确率5-10%。
代理视觉允许细致检查图像细节，增强视觉推理能力。
代码执行使得对图像细节的精细检查成为可能，减少了猜测。
Gemini可以通过标注图像来增强视觉推理能力，例如正确计数物体。
谷歌声称解决了手上数字计数的难题。
视觉算术和数据可视化可以通过Python代码进行处理，减少复杂图像中的幻觉。
用户对谷歌的公告表示，代理视觉将使AI在物理机器人中实现视觉推理。
谷歌的代理视觉路线图包括更多隐式行为和新工具的添加。
代理视觉可通过Gemini API在Google AI Studio和Vertex AI中访问。

🔎

延伸解读

代理视觉的创新意义

谷歌在Gemini 3 Flash中引入的代理视觉技术，标志着视觉推理与代码执行的结合。这种方法不仅提高了视觉任务的准确性，还为AI的行为解锁了新的可能性，尤其是在物理机器人领域。通过细致的图像分析，AI能够更好地理解和处理复杂的视觉信息。

实际应用与未来展望

代理视觉的实现使得AI在处理图像时能够进行更精确的操作，如缩放和标注，这在实际应用中具有重要意义。未来，谷歌计划扩展更多隐式行为和工具，进一步提升AI的视觉推理能力。这将对自动化和机器人技术的发展产生深远影响。

与其他工具的比较

虽然ChatGPT等工具也采用了类似的代码执行方法，但在某些复杂任务上仍存在局限性。谷歌的代理视觉通过精细的图像处理和视觉推理，解决了如手上数字计数等难题，显示出其在视觉任务中的优势。

❓

延伸问答

谷歌的Gemini 3 Flash引入了什么新功能？

谷歌在Gemini 3 Flash中引入了代理视觉，结合视觉推理与代码执行。

代理视觉如何提升视觉任务的准确率？

代理视觉通过“思考-行动-观察”循环分析图像并执行Python代码，提升视觉任务准确率5-10%。

Gemini 3 Flash的代理视觉如何处理图像细节？

代理视觉允许细致检查图像细节，通过代码执行实现对小视觉元素的精细检查。

谷歌声称解决了什么难题？