借助多模态的大型语言模型增强机器人操作的人工智能反馈
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究,展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT,该模型能够提供分析和偏好反馈,并验证了所生成的偏好标签的有效性,实验评估表明其对新任务具有有效的泛化能力,并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习,超越了基于最新的预训练表示模型的奖励。
研究发现,当LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,它可以直接预测操作技能的密集序列的末端执行器姿态。LLMs具备理解低级机器人控制的能力,并能检测到失败并重新规划轨迹。