该文介绍了一种名为ARP的高效框架,通过计算视觉观察和自然语言指令之间的相似度作为奖励信号,训练具有多模态奖励标签的返回条件策略,有效减轻目标误泛化。同时,引入了一种用于预训练的多模态编码器的微调方法,进一步增强性能。
完成下面两步后,将自动完成登录并继续当前操作。