本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展,扩展了多模态模型的能力边界。提出了SEEACT,一种利用LMMs的通用网络代理,可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的MIND2WEB基准上进行评估,展示了GPT-4V在网络代理中的巨大潜力。转化仍然是一个主要的挑战,现有的LMM转化策略并不适用于网络代理,需要进一步改进。
完成下面两步后,将自动完成登录并继续当前操作。