BriefGPT - AI 论文速递 ·

THE COLOSSEUM: 机器人操作泛化评估基准

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

研究人员介绍了一个新的模拟基准测试COLOSSEUM，用于评估机器人策略对环境变化的适应能力。他们比较了4种操作模型，在环境扰动下的成功率下降了30-50%，同时应用多个扰动时，成功率下降≥75%。改变干扰对象的数量、目标对象的颜色或照明条件是最大程度降低模型性能的扰动因素。研究人员证明了模拟结果与真实实验中的类似扰动相关。他们公开了COLOSSEUM的使用代码，并发布了用于复制真实世界扰动的三维打印对象的代码。希望COLOSSEUM能成为评估操作泛化能力的基准。

🎯

关键要点

研究人员介绍了新的模拟基准测试COLOSSEUM，用于评估机器人策略对环境变化的适应能力。
COLOSSEUM包括20个不同的操作任务，系统评估模型在12个环境扰动轴上的性能。
比较了4种操作模型，发现成功率在环境扰动下下降了30-50%。
当多个扰动同时应用时，成功率下降≥75%。
改变干扰对象的数量、目标对象的颜色或照明条件是最大程度降低模型性能的扰动因素。
研究人员证明了模拟结果与真实实验中的类似扰动相关，生态效度得到验证。
公开了COLOSSEUM的使用代码，并发布了用于复制真实世界扰动的三维打印对象的代码。
希望COLOSSEUM能成为评估操作泛化能力的基准，以改进操作泛化能力的建模决策。

🏷️

THE COLOSSEUM: 机器人操作泛化评估基准

内容提要

关键要点

标签

继续阅读