推出Gemini 2.5计算机使用模型
💡
原文英文,约1000词,阅读约需4分钟。
📝
内容提要
谷歌推出Gemini 2.5计算机模型,增强了开发者与用户界面的交互能力。该模型在多个基准测试中表现优异,支持API操作,能够执行点击和输入等操作,并具备安全防护措施。开发者可通过Google AI Studio和Vertex AI访问该模型。
🎯
关键要点
-
谷歌推出Gemini 2.5计算机模型,增强开发者与用户界面的交互能力。
-
该模型在多个基准测试中表现优异,支持API操作,能够执行点击和输入等操作。
-
Gemini 2.5计算机模型的核心能力通过新的'computer_use'工具在Gemini API中提供。
-
模型分析用户请求、环境截图和最近操作历史,生成响应并执行相应的UI操作。
-
该模型主要优化用于网页浏览器,但在移动UI控制任务中也表现出色。
-
安全性方面,模型内置安全特性以应对用户滥用、意外行为和网络环境中的欺诈。
-
开发者可以通过Google AI Studio和Vertex AI访问该模型,进行UI测试和工作流自动化等应用。
-
模型现已公开预览,开发者可以开始构建自己的代理循环。
❓
延伸问答
Gemini 2.5计算机模型的主要功能是什么?
Gemini 2.5计算机模型增强了开发者与用户界面的交互能力,能够执行点击、输入等操作。
开发者如何访问Gemini 2.5模型?
开发者可以通过Google AI Studio和Vertex AI访问Gemini 2.5模型。
Gemini 2.5模型在性能上有什么优势?
该模型在多个基准测试中表现优异,提供低延迟的浏览器控制能力。
Gemini 2.5模型如何确保安全性?
模型内置安全特性以应对用户滥用和意外行为,并提供开发者安全控制。
Gemini 2.5模型适合哪些应用场景?
该模型适用于UI测试、工作流自动化和个人助手等应用场景。
如何开始使用Gemini 2.5模型?
模型现已公开预览,开发者可以通过Gemini API开始构建自己的代理循环。
➡️