The Verge ·

谷歌最新的AI模型像你一样使用网页浏览器

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

谷歌推出了Gemini 2.5 AI模型，能够在浏览器中模拟人类操作，如点击、滚动和输入，执行无需API的数据任务。该模型具备视觉理解和推理能力，适用于用户界面测试和与人类设计的界面互动。目前支持13种操作，性能优于竞争对手，开发者可通过Google AI Studio和Vertex AI访问。

🎯

🔎

Gemini 2.5 AI模型的推出为用户界面测试和数据访问提供了新的可能性。它能够在没有API的情况下执行任务，适合需要与人类设计的界面互动的场景。这使得开发者可以更高效地进行产品测试和优化，尤其是在用户体验方面。

谷歌的Gemini 2.5在性能上优于其他竞争对手，如OpenAI的ChatGPT Agent和Anthropic的Claude AI。这一优势主要体现在其专注于浏览器操作，而不是整个计算机环境，显示出其在特定任务上的高效性。

尽管Gemini 2.5表现出色，但它仍然存在局限性。目前仅支持13种操作，且尚未优化用于桌面操作系统级别的控制。这意味着在某些复杂任务中，可能无法完全替代人类操作。

❓

Gemini 2.5 AI模型能够在浏览器中模拟人类操作，如点击、滚动和输入，执行无需API的数据任务。

该模型支持13种操作，包括打开浏览器、输入文本和拖放元素。

Gemini 2.5的性能优于竞争对手，并在多个网页和移动基准测试中表现出色。

开发者可以通过Google AI Studio和Vertex AI访问Gemini 2.5模型。

该模型适用于用户界面测试和与人类设计的界面互动。

是的，谷歌展示了Gemini 2.5的演示视频，显示其在浏览器中完成任务的能力。

🏷️