量子位 ·

具身智能迎来“统考卷”：上海交通大学发布大规模开源测评集GM-100，致力推动行业标准化

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

上海交通大学发布的开源测评集GM-100包含100个任务和13,000条操作轨迹数据，旨在评估机器人智能与物理执行的协同能力。该测评集强调任务设计的广度与评估的深度，提供多维指标分析模型性能，推动行业标准化，降低研究门槛，促进合作与交流。

🎯

🔎

GM-100的发布标志着具身智能领域向标准化迈出了重要一步。通过提供统一的评测基准，研究者和开发者可以更有效地比较不同模型的性能，推动技术进步。这种标准化不仅有助于提升研究的透明度，还能促进跨机构的合作与交流。

GM-100引入了部分成功率和动作预测误差等多维评估指标，使得对模型性能的分析更加细致。这种方法能够更全面地反映模型在复杂任务中的表现，避免了传统评估方法的局限性，有助于研究者更准确地识别模型的优缺点。

GM-100的开源特性大大降低了研究门槛，使得更多的研究机构和开发者能够参与到具身智能的研究中来。通过提供详细的任务说明和真实的操作轨迹数据，GM-100不仅促进了知识的共享，也为新兴团队提供了宝贵的资源，推动了整个行业的发展。

❓

GM-100测评集旨在评估机器人智能与物理执行的协同能力，推动行业标准化。

GM-100包含100个任务和13,000条操作轨迹数据。

GM-100引入了部分成功率和动作预测误差作为评估指标，提供多维分析模型性能。

GM-100强调任务设计的广度与评估体系的深度，区别于现有测评集。

GM-100开源了所有任务的详细说明和操作轨迹数据，降低了研究机构与开发者的参与门槛。

GM-100团队建立了审核机制，要求提交者提供模型权重以供验证，并为通过审核的提交打上“已验证”标签。

🏷️