机器之心 ·

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

CRAB是一个跨平台多模态智能体基准测试框架，由CAMEL AI社区开发。它评估多模态语言模型智能体在跨环境任务中的表现，并提供了高效的任务和评估器构建工具。研究团队还开发了一个包含100个任务的跨平台测试数据集CRAB Benchmark-v0。实验结果显示，使用GPT-4o作为推理引擎的单智能体结构具有最高的测试点完成率。该框架为智能体评估提供了全面、灵活和贴近实际的基准测试平台。

🎯

关键要点

CRAB是一个跨平台多模态智能体基准测试框架，由CAMEL AI社区开发。
CRAB评估多模态语言模型智能体在跨环境任务中的表现，并提供高效的任务和评估器构建工具。
研究团队开发了包含100个任务的跨平台测试数据集CRAB Benchmark-v0。
实验结果显示，使用GPT-4o作为推理引擎的单智能体结构具有最高的测试点完成率。
CRAB框架支持将多个设备的交互封装为一个环境，提供更丰富的操作空间。
CRAB提出了基于图的细粒度评估方法，能够全面反映智能体的表现。
CRAB简化了跨环境任务的构建过程，提出基于子任务组合的方法。
CRAB框架探讨了不同智能体系统结构对任务完成效果的影响。
CRAB的图评估器引入了新的评价指标，如完成率、执行效率和成本效率。
CRAB Benchmark-v0支持Android手机和Ubuntu Linux桌面电脑两个环境，模拟真实生活中的常见交互。
实验结果表明，GPT-4o和GPT-4 Turbo模型在测试中实现了最高的平均测试点完成率。

❓

延伸问答

CRAB框架的主要功能是什么？

CRAB框架用于评估多模态语言模型智能体在跨环境任务中的表现，并提供高效的任务和评估器构建工具。

CRAB Benchmark-v0包含多少个任务？

CRAB Benchmark-v0包含100个任务，支持在Android手机和Ubuntu Linux桌面电脑上执行。

使用哪个模型在CRAB测试中获得了最高的完成率？

使用GPT-4o作为推理引擎的单智能体结构在CRAB测试中获得了最高的测试点完成率。

CRAB框架如何简化跨环境任务的构建过程？

CRAB框架提出了一种基于子任务组合的方法，简化了跨环境任务的构建过程。

CRAB框架的图评估器有什么创新之处？

CRAB的图评估器引入了新的评价指标，如完成率、执行效率和成本效率，提供了更细粒度的评估。

CRAB框架支持哪些操作系统？

CRAB框架支持Android手机和Ubuntu Linux桌面电脑两个操作系统。

🏷️