量子位 ·

你的模型真的会”举一反三”吗？RoboChallenge Table30 V2 正式发布，泛化时代开幕

Q: Table30 V2的系统吞吐量提升了多少？

系统吞吐量提升了300%。

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

RoboChallenge发布的Table30 V2旨在提升具身智能模型的泛化能力。新版本引入多任务、零样本测试和双臂协作，评测标准和系统吞吐量提升300%。该平台为全球研究者提供公平的竞技环境，推动具身智能的发展。

🎯

关键要点

RoboChallenge发布的Table30 V2旨在提升具身智能模型的泛化能力。
新版本引入多任务、零样本测试和双臂协作，评测标准和系统吞吐量提升300%。
Table30 V2为全球研究者提供公平的竞技环境，推动具身智能的发展。
任务升级包括新增18个双臂灵巧操作任务，构建30个高难度任务的综合评估体系。
引入对软体物体的处理任务，挑战模型的空间推理与自适应控制能力。
新增任务要求机器人准确使用工具，理解复杂的工具-物体空间关系。
设计了大量需要双手高度协调的任务，要求模型实现高精度的同步控制。
引入新一代移动双臂操纵平台，验证模型在不同硬件配置下的鲁棒性。
评测升级支持多任务模型，杜绝为每个任务单独训练的优化方式。
引入零样本测试，模型需在未见过的物体和背景下展示理解力。
升级为包含域外的高阶测试，挑战模型的边界。
系统吞吐量提升300%，优化底层基础设施以加快评估速度。
新增“完成时间”作为关键评分维度，促使研究者优化执行效率。
诚邀全球科研团队参与RoboChallenge CVPR 2026 Workshop竞赛，验证模型。

🔎

延伸解读

泛化能力的重要性

Table30 V2的发布强调了具身智能模型的泛化能力，这不仅是对模型性能的考验，更是对其在复杂现实场景中适应能力的挑战。研究者需关注模型是否能在未见过的任务和环境中保持高效表现，避免过拟合现象。

多任务与零样本测试的意义

引入多任务和零样本测试是Table30 V2的一大亮点。这要求模型具备更强的通用理解能力，而非仅仅依赖于记忆。研究者应重视这一评测标准，以提升模型在多变环境中的适应性和灵活性。

系统吞吐量的提升

Table30 V2的系统吞吐量提升300%意味着评测速度大幅加快，这为研究者提供了更高效的反馈循环。科研团队应利用这一优势，加快模型迭代和优化过程，提升研究效率。

❓

延伸问答

Table30 V2的主要目标是什么？

Table30 V2旨在提升具身智能模型的泛化能力。

Table30 V2引入了哪些新任务？

新增了18个双臂灵巧操作任务，并构建了包含30个高难度任务的综合评估体系。

Table30 V2如何支持零样本测试？

Table30 V2引入物体级和环境级的零样本测试，要求模型在未见过的物体和背景下展示理解力。

Table30 V2的系统吞吐量提升了多少？