小红花·文摘

本研究提出了一种新的Web-Bench基准，包含50个项目和20个任务，以模拟真实的开发流程。研究结果显示，Web-Agent在该基准上的通过率仅为25.1%，表明大语言模型在Web开发中的表现仍需改进。