推出Gemini 2.5计算机使用模型

💡 原文英文,约1000词,阅读约需4分钟。
📝

内容提要

谷歌推出Gemini 2.5计算机模型,增强了开发者与用户界面的交互能力。该模型在多个基准测试中表现优异,支持API操作,能够执行点击和输入等操作,并具备安全防护措施。开发者可通过Google AI Studio和Vertex AI访问该模型。

🎯

关键要点

  • 谷歌推出Gemini 2.5计算机模型,增强开发者与用户界面的交互能力。

  • 该模型在多个基准测试中表现优异,支持API操作,能够执行点击和输入等操作。

  • Gemini 2.5计算机模型的核心能力通过新的'computer_use'工具在Gemini API中提供。

  • 模型分析用户请求、环境截图和最近操作历史,生成响应并执行相应的UI操作。

  • 该模型主要优化用于网页浏览器,但在移动UI控制任务中也表现出色。

  • 安全性方面,模型内置安全特性以应对用户滥用、意外行为和网络环境中的欺诈。

  • 开发者可以通过Google AI Studio和Vertex AI访问该模型,进行UI测试和工作流自动化等应用。

  • 模型现已公开预览,开发者可以开始构建自己的代理循环。

延伸问答

Gemini 2.5计算机模型的主要功能是什么?

Gemini 2.5计算机模型增强了开发者与用户界面的交互能力,能够执行点击、输入等操作。

开发者如何访问Gemini 2.5模型?

开发者可以通过Google AI Studio和Vertex AI访问Gemini 2.5模型。

Gemini 2.5模型在性能上有什么优势?

该模型在多个基准测试中表现优异,提供低延迟的浏览器控制能力。

Gemini 2.5模型如何确保安全性?

模型内置安全特性以应对用户滥用和意外行为,并提供开发者安全控制。

Gemini 2.5模型适合哪些应用场景?

该模型适用于UI测试、工作流自动化和个人助手等应用场景。

如何开始使用Gemini 2.5模型?

模型现已公开预览,开发者可以通过Gemini API开始构建自己的代理循环。

➡️

继续阅读