Google DeepMind Blog ·

介绍Gemini 2.5计算机使用模型

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

谷歌发布了Gemini 2.5计算机使用模型，允许开发者通过Gemini API构建与用户界面交互的代理。该模型在网页和移动控制基准测试中表现优异，延迟更低。开发者可在Google AI Studio和Vertex AI上访问这些功能，模型通过分析用户请求和环境截图生成相应的UI操作，并内置防护措施以防止风险和滥用。

🎯

关键要点

谷歌发布了Gemini 2.5计算机使用模型，允许开发者通过Gemini API构建与用户界面交互的代理。
该模型在网页和移动控制基准测试中表现优异，延迟更低。
开发者可以在Google AI Studio和Vertex AI上访问这些功能。
模型通过分析用户请求和环境截图生成相应的UI操作，并内置防护措施以防止风险和滥用。
模型的核心功能通过Gemini API中的新工具`computer_use`暴露，支持用户请求、环境截图和最近操作历史作为输入。
模型在执行操作后，会将新的GUI截图和当前URL返回，重新启动循环，直到任务完成或出现错误。
Gemini 2.5计算机使用模型主要优化用于网页浏览器，但在移动UI控制任务中也表现出色。
模型内置安全功能，以应对用户滥用、意外行为和网络环境中的欺诈风险。
开发者可以通过安全控制措施防止模型自动完成高风险或有害的操作。
早期测试者已将该模型应用于UI测试、个人助手和工作流自动化等用例，并取得了良好效果。

🔎

延伸解读

Gemini 2.5模型的应用场景

Gemini 2.5计算机使用模型适用于多种场景，包括UI测试、个人助手和工作流自动化。开发者可以利用该模型提高软件开发效率，尤其是在需要与用户界面直接交互的任务中。早期测试者的反馈显示，该模型在实际应用中表现良好，能够有效完成复杂的操作。

安全性与风险控制

Gemini 2.5模型内置了多种安全功能，以应对用户滥用和意外行为的风险。开发者可以通过安全控制措施，防止模型执行高风险操作。这些措施包括对每个提议的操作进行评估，以及在执行特定高风险操作前要求用户确认，确保系统的安全性。

与其他模型的比较

在网页和移动控制基准测试中，Gemini 2.5模型表现优于其他竞争对手，具有更低的延迟和更高的准确性。这使得它在需要快速响应的应用场景中更具优势，尤其是在处理复杂的用户请求时。开发者在选择模型时，可以考虑其在特定任务中的表现。

❓

延伸问答

Gemini 2.5计算机使用模型的主要功能是什么？

Gemini 2.5计算机使用模型允许开发者通过Gemini API构建与用户界面交互的代理，支持用户请求、环境截图和操作历史作为输入。

开发者如何访问Gemini 2.5计算机使用模型？

开发者可以在Google AI Studio和Vertex AI上通过Gemini API访问Gemini 2.5计算机使用模型。

Gemini 2.5模型在性能上有什么优势？

Gemini 2.5模型在网页和移动控制基准测试中表现优异，具有更低的延迟和更高的准确性。

Gemini 2.5模型如何处理用户请求？

模型通过分析用户请求和环境截图生成相应的UI操作，并在执行后返回新的GUI截图和当前URL，重新启动循环。

Gemini 2.5模型有哪些安全措施？

模型内置安全功能以防止用户滥用和意外行为，开发者也可以设置安全控制措施以防止高风险操作。

早期测试者如何使用Gemini 2.5模型？

早期测试者已将该模型应用于UI测试、个人助手和工作流自动化等用例，并取得了良好效果。

🏷️