本研究引入Online-Mind2Web基准,评估网络代理能力,涵盖300个任务,揭示真实能力。同时开发LLM-as-a-Judge方法,评估结果与人类判断高度一致,推动代理评估与发展。
完成下面两步后,将自动完成登录并继续当前操作。