小红花·文摘 - 小红花技术领袖俱乐部

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

机器之心 ·

这篇文章介绍了多个基准测试框架，用于评估大型语言模型（LLMs）在多轮互动和任务自动化中的能力。研究显示，强模型与弱模型之间存在显著性能差距，并提出了改进模型能力的概率图模型方法。文章强调标准化评估和伦理指南在人工智能发展中的重要性，并介绍了用于知识图谱工程和任务自动化的评估工具。

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升 LLM 代理的进展

BriefGPT - AI 论文速递 ·

Syn3DWound是一个开源的高保真模拟伤口数据集，包含2D和3D注释。提出了基线方法和基准测试框架，用于自动化3D形态测量分析和2D/3D伤口分割。

Syn3DWound: 用于 3D 创面床分析的合成数据集

BriefGPT - AI 论文速递 ·