InfoQ ·

谷歌DeepMind推出Gemini 2.5计算机使用模型，以驱动UI控制的AI代理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind推出Gemini 2.5模型，旨在让AI代理与图形用户界面互动，支持点击、输入和滚动等操作，准确率约为70%。尽管在浏览器环境中表现良好，但实际应用仍面临挑战。DeepMind强调安全性，模型内置防止恶意操作的保护措施。

🎯

🔎

尽管Gemini 2.5模型在浏览器环境中表现良好，但开发者对其实际部署的速度和效率表示担忧。目前的实现速度较慢，可能无法满足高效应用的需求，尤其是在需要快速响应的场景中。开发者需关注模型的实际性能，以决定是否适合生产环境。

DeepMind在Gemini 2.5模型中强调了安全性，内置的保护措施可以防止恶意操作和不安全的行为。这种设计不仅提升了用户信任度，也为开发者提供了更安全的操作环境。在使用该模型时，开发者应重视安全评估，确保每个操作都经过严格审核。

Gemini 2.5模型目前主要优化为浏览器环境，但其在移动UI控制方面的潜力也不容忽视。随着技术的进步，未来可能会扩展到桌面操作系统。这为开发者提供了更多的应用场景和创新机会，值得持续关注其后续发展。

❓

Gemini 2.5模型旨在让AI代理与图形用户界面互动，支持点击、输入和滚动等操作。

该模型在Online-Mind2Web基准测试中达到了约70%的准确率。

开发者认为当前实现速度较慢，可能被标准API调用替代，实际部署仍面临挑战。

模型内置防止恶意操作的保护措施，每个操作在执行前经过安全评估。

该模型在浏览器和移动应用环境中表现良好，未来有潜力扩展到桌面操作系统。

模型通过Gemini API的computer_use工具循环操作，开发者提供环境截图和任务描述，模型返回结构化的功能调用。

🏷️