💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

谷歌DeepMind推出Gemini 2.5模型,旨在让AI代理与图形用户界面互动,支持点击、输入和滚动等操作,准确率约为70%。尽管在浏览器环境中表现良好,但实际应用仍面临挑战。DeepMind强调安全性,模型内置防止恶意操作的保护措施。

🎯

关键要点

  • 谷歌DeepMind推出Gemini 2.5计算机使用模型,旨在让AI代理与图形用户界面互动。
  • 新模型支持点击、输入、滚动等操作,准确率约为70%。
  • 模型在浏览器和移动应用环境中表现良好,能够感知屏幕上下文并相应行动。
  • 模型通过Gemini API的computer_use工具循环操作,开发者提供环境截图和任务描述。
  • 尽管目前优化为浏览器环境,模型在移动UI控制方面也显示出强大潜力。
  • 开发者对模型的实际部署表示担忧,认为当前实现速度较慢,可能被标准API调用替代。
  • DeepMind强调安全性,模型内置防止恶意操作的保护措施,确保每个操作在执行前经过安全评估。
  • Gemini 2.5计算机使用模型现已在Google AI Studio和Vertex AI的Gemini API中提供预览。
➡️

继续阅读