机器人效用模型:新环境中零样本部署的一般策略

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了COLOSSEUM,一个用于评估机器人在不同环境扰动下性能的新模拟基准测试。研究发现,四种最先进的操作模型在环境扰动下的成功率下降了30-50%,同时应用多个扰动时下降≥75%。改变干扰对象的数量、目标对象的颜色或照明条件是降低模型性能的主要因素。研究结果与真实实验中的类似扰动相关。该研究公开了COLOSSEUM的使用代码,并发布了用于复制真实世界扰动的三维打印对象的代码。希望COLOSSEUM能成为评估操作泛化能力的基准。

🎯

关键要点

  • COLOSSEUM是一个新的模拟基准测试,用于评估机器人在不同环境扰动下的性能。

  • 该基准测试包括20个不同的操作任务,评估模型在12个环境扰动轴上的表现。

  • 四种最先进的操作模型在环境扰动下的成功率下降了30-50%,多个扰动同时应用时下降≥75%。

  • 改变干扰对象的数量、目标对象的颜色或照明条件是降低模型性能的主要因素。

  • 研究结果与真实实验中的类似扰动相关,生态效度得到验证(R^2 = 0.614)。

  • 研究团队公开了COLOSSEUM的使用代码,并发布了用于复制真实世界扰动的三维打印对象的代码。

  • 希望COLOSSEUM能成为评估操作泛化能力的基准,促进操作泛化能力的改进。

➡️

继续阅读