内容提要
谷歌DeepMind推出Gemini 2.5模型,旨在让AI代理与图形用户界面互动,支持点击、输入和滚动等操作,准确率约为70%。尽管在浏览器环境中表现良好,但实际应用仍面临挑战。DeepMind强调安全性,模型内置防止恶意操作的保护措施。
关键要点
-
谷歌DeepMind推出Gemini 2.5计算机使用模型,旨在让AI代理与图形用户界面互动。
-
新模型支持点击、输入、滚动等操作,准确率约为70%。
-
模型在浏览器和移动应用环境中表现良好,能够感知屏幕上下文并相应行动。
-
模型通过Gemini API的computer_use工具循环操作,开发者提供环境截图和任务描述。
-
尽管目前优化为浏览器环境,模型在移动UI控制方面也显示出强大潜力。
-
开发者对模型的实际部署表示担忧,认为当前实现速度较慢,可能被标准API调用替代。
-
DeepMind强调安全性,模型内置防止恶意操作的保护措施,确保每个操作在执行前经过安全评估。
-
Gemini 2.5计算机使用模型现已在Google AI Studio和Vertex AI的Gemini API中提供预览。
延伸问答
Gemini 2.5模型的主要功能是什么?
Gemini 2.5模型旨在让AI代理与图形用户界面互动,支持点击、输入和滚动等操作。
Gemini 2.5模型的准确率是多少?
该模型在Online-Mind2Web基准测试中达到了约70%的准确率。
开发者对Gemini 2.5模型的实际部署有什么看法?
开发者认为当前实现速度较慢,可能被标准API调用替代,实际部署仍面临挑战。
Gemini 2.5模型如何确保安全性?
模型内置防止恶意操作的保护措施,每个操作在执行前经过安全评估。
Gemini 2.5模型适用于哪些环境?
该模型在浏览器和移动应用环境中表现良好,未来有潜力扩展到桌面操作系统。
Gemini 2.5模型的工作原理是什么?
模型通过Gemini API的computer_use工具循环操作,开发者提供环境截图和任务描述,模型返回结构化的功能调用。