小红花·文摘

RoboFlamingo是一个开源机器人操作模型，利用大型视觉-语言基础模型进行训练，能够在复杂的机器人操作任务中表现出色。RoboFlamingo通过视觉编码器、特征融合解码器和策略头部三个模块实现机器人每一步的动作预测。实验结果显示，RoboFlamingo在各种设置和指标上的性能都很好。这项工作为机器人技术研究者提供了一个强大的开源框架，能够更容易地发挥开源视觉-语言模型的潜能。