小红花·文摘

该文介绍了一种名为ARP的高效框架，通过计算视觉观察和自然语言指令之间的相似度作为奖励信号，训练具有多模态奖励标签的返回条件策略，有效减轻目标误泛化。同时，引入了一种用于预训练的多模态编码器的微调方法，进一步增强性能。