机器之心 ·

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

介绍了WebCanvas在线评估框架，用于评估大型语言模型代理在真实网络环境中的表现。通过识别关键节点评估代理性能，并构建Mind2Web-Live数据集进行实验。实验结果显示，配备Memory模块和ReAct推理框架的代理在任务成功率上有显著提升。呼吁科研社区合作推动评估技术创新与完善。

🎯

关键要点

WebCanvas在线评估框架用于评估大型语言模型代理在真实网络环境中的表现。
现有评测方法局限于静态数据集和模拟网站，无法捕捉动态变化。
WebCanvas提出了“关键节点”概念，确保评估的精准度。
Mind2Web-Live数据集包含542个任务，实验显示配备Memory模块和ReAct推理框架的代理成功率显著提升。
评估体系分为步骤得分和任务得分，衡量Agent在关键节点的表现。
数据标注使用iMean Builder插件，记录用户交互行为，确保数据的准确性。
设计数据维护方案以应对网络环境变化，确保评测集的持续相关性。
WebCanvas鼓励社区参与，推动数据质量提升和技术创新。
基础Agent框架由规划、观察、记忆和奖励模块组成，优化任务执行效率。
实验结果表明，整合原始标注数据的Reward模块能增强Agent能力。
呼吁科研社区合作，推动评测技术的创新与完善。

❓

延伸问答

WebCanvas框架的主要功能是什么？

WebCanvas框架用于评估大型语言模型代理在真实网络环境中的表现，提供全面的评估方法。

什么是Mind2Web-Live数据集，它包含哪些内容？

Mind2Web-Live数据集包含542个任务，旨在评估Agent在真实在线环境中的表现。

WebCanvas如何确保评估的精准度？

WebCanvas通过提出“关键节点”概念，聚焦于任务执行过程中的重要步骤，确保评估的精准度。

WebCanvas的评估体系是如何构成的？

WebCanvas的评估体系分为步骤得分和任务得分，衡量Agent在关键节点的表现和任务完成情况。

WebCanvas如何应对网络环境的变化？

WebCanvas设计了数据维护方案，确保评测集的持续相关性和准确性，以应对网络环境的变化。

WebCanvas对科研社区有什么呼吁？

WebCanvas呼吁科研社区合作，推动评测技术的创新与完善，提升数据质量。

🏷️

继续阅读

自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
使用yii3实现一个微框架
本文介绍了如何使用 Yii3 框架构建微框架，包括创建项目目录、安装依赖、编写入口文件 index.php、配置事件监听器和路由。示例路由涵盖首页、健康检...
mingling - 基于过程宏的命令行框架
我开发了一个命令行框架mingling，利用过程宏减少样板代码，提高命令行开发效率。该框架已在crates.io发布，版本为0.1.9，欢迎大家讨论和使用。
扣子3.0实测：手机就能远程遥控你电脑里的Agent
扣子3.0正式发布，升级了AI团队协作功能。用户可通过简单指令调动多个专业Agent共同完成复杂任务，如制作网页Demo和视频方案。新版本支持多端同步，能...
本地多模态拳王Gemma 4 12B评测 | 无编码器架构详解
谷歌最新的Gemma 4 12B是一款轻量级多模态AI模型，采用无编码器架构，能够直接处理图像和音频，提升了效率和理解能力。其120亿参数使其在普通电脑上...