谷歌DeepMind推出Gemini 2.5计算机使用模型，以驱动UI控制的AI代理

InfoQ ·

谷歌DeepMind推出Gemini 2.5计算机使用模型，以驱动UI控制的AI代理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind推出Gemini 2.5模型，旨在让AI代理与图形用户界面互动，支持点击、输入和滚动等操作，准确率约为70%。尽管在浏览器环境中表现良好，但实际应用仍面临挑战。DeepMind强调安全性，模型内置防止恶意操作的保护措施。

🎯

关键要点

谷歌DeepMind推出Gemini 2.5计算机使用模型，旨在让AI代理与图形用户界面互动。
新模型支持点击、输入、滚动等操作，准确率约为70%。
模型在浏览器和移动应用环境中表现良好，能够感知屏幕上下文并相应行动。
模型通过Gemini API的computer_use工具循环操作，开发者提供环境截图和任务描述。
尽管目前优化为浏览器环境，模型在移动UI控制方面也显示出强大潜力。
开发者对模型的实际部署表示担忧，认为当前实现速度较慢，可能被标准API调用替代。
DeepMind强调安全性，模型内置防止恶意操作的保护措施，确保每个操作在执行前经过安全评估。
Gemini 2.5计算机使用模型现已在Google AI Studio和Vertex AI的Gemini API中提供预览。

🏷️

继续阅读

AI 时代的新王座：为什么说 Go 可能是开发 AI Agent 的最佳语言？
随着AI应用的发展，Go语言因其高并发、易于部署和跨平台能力，逐渐成为AI代理开发的首选。尽管Python在数据科学中占主导地位，Go在基础设施层面的编译...
OutSystems首席执行官谈企业如何成功采用氛围编码
OutSystems CEO Woodson Martin指出，企业成功采用AI代理需结合代理、数据、工作流和人类监督，单独的代理难以实现预期效果，成功部...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
在Markdown文件上运行AI代理而非MCP服务器的理由
Supabase开源了一个代理技能库，将开发实践与API交互分离。微软的.NET技能执行器使用SKILL.md文件，越来越多的开发者认为“Markdown...
在人工智能加速的工作流程中的人类策略
设计师们普遍担心AI代理会取代他们的工作，尤其是在职业发展和雇主采用AI工具的速度上。不过，一些组织因数据安全问题尚未使用AI工具。
15.68 万元买 D 级车！丰田铂智 7 这次真想通了
2025年，合资品牌电动车迎来转折，广丰铂智3X销量突破7万辆，打破智能化刻板印象。铂智7预售价15.68万元，设计更具攻击性，搭载华为鸿蒙座舱与激光雷达...

谷歌DeepMind推出Gemini 2.5计算机使用模型，以驱动UI控制的AI代理

内容提要

关键要点

标签

继续阅读