量子位 ·

基于数万次真机评测，RoboChallenge首份年度报告发布

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

RoboChallenge发布年度报告，揭示大语言模型在真实物理环境中的能力与挑战。通过数万次真机测试，推动具身智能标准化，满足日益增长的验证需求。报告指出，基础任务逐渐成熟，但复杂任务成功率仍低。未来将扩展测试场景，降低验证门槛，促进技术进步。

🎯

关键要点

RoboChallenge发布首份年度报告，揭示大语言模型在真实物理环境中的能力与挑战。
报告基于数万次真机测试，推动具身智能标准化，满足验证需求。
基础任务逐渐成熟，但复杂任务成功率仍低，需进一步提升。
RoboChallenge致力于构建开放、公正、可复现的真机评测平台。
组委会成立，推动真机评测走向规范化、标准化。
平台开源Table30数据集，为全球研究者提供评测基准。
真机实测成为行业共识，用户注册数与评测提交量大幅增长。
评测发现基础任务成功率较高，复杂任务仍具挑战。
当前最佳模型在评测集上的成功率约为50%，仍有提升空间。
RoboChallenge未来将拓展测试场景，降低验证门槛，促进技术进步。

🏷️

继续阅读

为什么我在2026年推荐给大多数人的QLED电视不是三星或索尼的
亚马逊Fire TV Omni QLED系列电视起价429美元，65英寸型号售价850美元，画质优秀，支持Alexa+和Ambient Experienc...
你应该购买一款便宜的扫地机器人吗？我测试了这款200美元的型号，表现出乎意料地好
3i G10+是一款售价200美元的智能扫地机器人，具备强大吸力和高效导航，适合预算有限的用户。其1L尘盒可压缩垃圾，最长可达60天无需清空。尽管清洁效果...
这款20美元的智能遥控器彻底改变了我在家使用Alexa的方式
亚马逊Basics智能调光开关和遥控器售价20美元，兼容Alexa，支持多设备控制和家庭自动化场景，用户可通过Alexa应用轻松调整按钮功能，提升智能家居便利性。
什么是MoCA 2.5？这种低成本网络选项如何显著改善您的互联网连接
在某些家庭中，Wi-Fi信号不佳。MoCA 2.5通过同轴电缆提供高达2.5Gbps的快速、低延迟网络连接，适合流媒体、工作和游戏。使用MoCA适配器可实...
终于，我找到了一款既强大又外观出众的商务Windows笔记本电脑
华硕ExpertBook Ultra B9是一款高端商务笔记本，预计2026年4月上市。搭载Intel Panther Lake处理器，轻巧设计，电池续航...
演讲征集 – 2026年柏林Qt世界峰会
2026年Qt世界峰会将于10月27-28日在德国柏林举行，现征集演讲者和主题，提交截止日期为2026年3月31日，演讲者将于5月初获知结果，演讲时长为3...

基于数万次真机评测，RoboChallenge首份年度报告发布

内容提要

关键要点

标签

继续阅读