💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
谷歌DeepMind推出Gemini 2.5模型,旨在让AI代理与图形用户界面互动,支持点击、输入和滚动等操作,准确率约为70%。尽管在浏览器环境中表现良好,但实际应用仍面临挑战。DeepMind强调安全性,模型内置防止恶意操作的保护措施。
🎯
关键要点
- 谷歌DeepMind推出Gemini 2.5计算机使用模型,旨在让AI代理与图形用户界面互动。
- 新模型支持点击、输入、滚动等操作,准确率约为70%。
- 模型在浏览器和移动应用环境中表现良好,能够感知屏幕上下文并相应行动。
- 模型通过Gemini API的computer_use工具循环操作,开发者提供环境截图和任务描述。
- 尽管目前优化为浏览器环境,模型在移动UI控制方面也显示出强大潜力。
- 开发者对模型的实际部署表示担忧,认为当前实现速度较慢,可能被标准API调用替代。
- DeepMind强调安全性,模型内置防止恶意操作的保护措施,确保每个操作在执行前经过安全评估。
- Gemini 2.5计算机使用模型现已在Google AI Studio和Vertex AI的Gemini API中提供预览。
➡️