Google DeepMind Blog ·

介绍Gemini 2.5计算机使用模型

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

谷歌发布了Gemini 2.5计算机使用模型，允许开发者通过Gemini API构建与用户界面互动的智能代理。该模型在网页和移动控制基准测试中表现优异，延迟更低，开发者可在Google AI Studio和Vertex AI上访问，进行UI测试和工作流自动化。模型内置安全功能，以防止潜在风险。

🎯

🔎

Gemini 2.5计算机使用模型的设计使其在用户界面交互中表现出色，适用于多种场景，如UI测试和工作流自动化。开发者可以利用该模型快速构建智能代理，提升软件开发效率，尤其是在需要频繁与图形用户界面互动的任务中。

该模型内置的安全功能旨在防止用户滥用和意外行为，确保在执行高风险操作时进行必要的确认。这些安全措施对于开发者来说至关重要，尤其是在处理敏感数据或关键系统时，建议开发者在上线前进行充分测试，以降低潜在风险。

Gemini 2.5在网页和移动控制基准测试中表现优异，低延迟和高准确性使其在市场上具有竞争优势。与其他同类模型相比，Gemini 2.5的性能提升可能为开发者提供更流畅的用户体验，值得关注其在实际应用中的表现。

❓

Gemini 2.5计算机使用模型允许开发者构建能够与用户界面互动的智能代理，支持网页和移动控制。

开发者可以通过Google AI Studio和Vertex AI访问Gemini 2.5模型，进行UI测试和工作流自动化。

Gemini 2.5模型在网页和移动控制基准测试中表现优异，具有更低的延迟和更高的准确性。

该模型内置安全功能，防止用户滥用、模型意外行为和网络环境中的欺诈，并提供开发者安全控制。

早期测试者将Gemini 2.5模型应用于UI测试、个人助手和工作流自动化，取得了良好效果。

模型通过接收用户请求、环境截图和最近操作历史，分析后生成相应的UI操作，如点击或输入。

🏷️