介绍了WebCanvas在线评估框架,用于评估大型语言模型代理在真实网络环境中的表现。通过识别关键节点评估代理性能,并构建Mind2Web-Live数据集进行实验。实验结果显示,配备Memory模块和ReAct推理框架的代理在任务成功率上有显著提升。呼吁科研社区合作推动评估技术创新与完善。
完成下面两步后,将自动完成登录并继续当前操作。