DM2RM:基于开放词汇指令的双模式多模态排名用于目标物体和容器
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于物理概念的视觉语言模型(VLM),通过捕捉人类先验知识,提高了机器人规划性能,并在真实机器人上展示了其好处。
🎯
关键要点
- 提出了一种基于物理概念的视觉语言模型(VLM)。
- 该模型通过捕捉人类先验知识,提高了机器人规划性能。
- 在36.9K个常见家居物体的数据集PhysObjects上进行训练。
- 将VLM与基于大语言模型的机器人规划器结合使用。
- 在涉及物理物体概念推理的任务中,VLM表现出比基线模型更好的规划性能。
- 在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。
➡️