介绍Gemini 2.5计算机使用模型
💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
谷歌发布了Gemini 2.5计算机模型,提升了开发者与用户界面的交互能力。该模型在多个基准测试中表现优异,支持通过Gemini API进行网页和应用程序操作,如填写表单和处理下拉菜单。
🎯
关键要点
- 谷歌发布了Gemini 2.5计算机模型,提升了开发者与用户界面的交互能力。
- 该模型在多个基准测试中表现优异,支持通过Gemini API进行网页和应用程序操作。
- 模型能够原生填写表单、操作下拉菜单和过滤器,并在登录后进行操作。
- 模型的核心功能通过Gemini API中的新工具`computer_use`暴露,需在循环中操作。
- 输入包括用户请求、环境截图和最近操作历史,可以指定排除某些功能或添加自定义功能。
➡️