CRAB是一个跨平台多模态智能体基准测试框架,由CAMEL AI社区开发。它评估多模态语言模型智能体在跨环境任务中的表现,并提供了高效的任务和评估器构建工具。研究团队还开发了一个包含100个任务的跨平台测试数据集CRAB Benchmark-v0。实验结果显示,使用GPT-4o作为推理引擎的单智能体结构具有最高的测试点完成率。该框架为智能体评估提供了全面、灵活和贴近实际的基准测试平台。
Syn3DWound是一个开源的高保真模拟伤口数据集,包含2D和3D注释。提出了基线方法和基准测试框架,用于自动化3D形态测量分析和2D/3D伤口分割。
完成下面两步后,将自动完成登录并继续当前操作。