量子位 ·

基于数万次真机评测，RoboChallenge首份年度报告发布

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

RoboChallenge发布年度报告，揭示大语言模型在真实物理环境中的能力与挑战。通过数万次真机测试，推动具身智能标准化，满足日益增长的验证需求。报告指出，基础任务逐渐成熟，但复杂任务成功率仍低。未来将扩展测试场景，降低验证门槛，促进技术进步。

🎯

🔎

尽管大语言模型在数字世界中表现出色，但将其应用于复杂的物理环境仍面临诸多挑战。报告指出，复杂任务的成功率低，显示出当前技术在真实场景中的局限性。这提醒研究者在开发新模型时，需关注如何提升模型在多步骤决策和精细操作中的表现。

RoboChallenge的成立标志着行业对真机评测标准化的共识。通过构建开放、公正的评测平台，行业参与者能够更有效地比较和验证不同模型的性能。这种标准化不仅有助于技术的快速迭代，也为未来的研究提供了可靠的基准。

RoboChallenge计划扩展测试场景并引入更多机器人类型，以满足工业和家庭的实际需求。这一战略将推动具身智能技术的进一步发展，降低验证门槛，使更多研究者能够参与到这一领域中来，促进技术的普及与应用。

❓

RoboChallenge年度报告揭示了大语言模型在真实物理环境中的能力与挑战，基于数万次真机测试，推动具身智能标准化。

RoboChallenge通过建立开放、公正、可复现的真机评测平台，推动真机评测的规范化和标准化。

当前大语言模型在复杂任务中的成功率仍然较低，部分任务成功率接近零，显示出技术的挑战性。

RoboChallenge平台的用户注册数与评测提交量在过去三个月呈指数级增长，显示出行业对真机实测的高度关注。

RoboChallenge未来将拓展测试场景，降低验证门槛，并引入更多机器人类型以满足真实工业与家庭需求。

Table30数据集覆盖9大类、共计30个标准化桌面任务，为全球研究者提供公开、透明的训练与评测基准。

🏷️