本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展。通过在最新的 MIND2WEB 基准上进行评估,展示了 GPT-4V 在网络代理中的巨大潜力。然而,转化仍然是一个主要的挑战,现有的 LMM 转化策略并不适用于网络代理。
完成下面两步后,将自动完成登录并继续当前操作。