HiFi-CS: Open Vocabulary Visual Grounding for Robotic Grasping
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了HiFi-CS方法,旨在提升机器人在复杂环境中的对象视觉定位与抓取姿态估计。通过特征线性调制(FiLM)融合图像和文本嵌入,模型在15个桌面场景中实现了90.33%的视觉定位准确率,展示了其在机器人抓取任务中的潜力。
🎯
关键要点
- 本研究提出了HiFi-CS方法,旨在提升机器人在复杂环境中的对象视觉定位与抓取姿态估计。
- HiFi-CS方法通过分层地应用特征线性调制(FiLM)来融合图像和文本嵌入。
- 该模型在15个桌面场景中实现了90.33%的视觉定位准确率。
- 实验结果展示了HiFi-CS在机器人抓取任务中的潜在影响。
➡️