机器人效用模型：新环境中零样本部署的一般策略

本研究针对机器人模型需在每个新环境中进行微调的问题，提出了一种新的“机器人效用模型”（RUM）框架。该框架允许机器人政策在未进行微调的情况下，直接普遍化到新环境中，且在新环境中与未见物体的互动成功率平均达90%。

该文章介绍了COLOSSEUM，一个用于评估机器人在不同环境扰动下性能的新模拟基准测试。研究发现，四种最先进的操作模型在环境扰动下的成功率下降了30-50%，同时应用多个扰动时下降≥75%。改变干扰对象的数量、目标对象的颜色或照明条件是降低模型性能的主要因素。研究结果与真实实验中的类似扰动相关。该研究公开了COLOSSEUM的使用代码，并发布了用于复制真实世界扰动的三维打印对象的代码。希望COLOSSEUM能成为评估操作泛化能力的基准。

COLOSSEUM 操作模型机器人环境扰动评估