本研究提出了一种新的Web-Bench基准,包含50个项目和20个任务,以模拟真实的开发流程。研究结果显示,Web-Agent在该基准上的通过率仅为25.1%,表明大语言模型在Web开发中的表现仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。