HiFi-CS:面向机器人抓取的开放词汇视觉定位
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了HiFi-CS方法,通过FiLM融合图像和文本嵌入,提高了视觉定位精度。实验结果表明,在15个桌面场景中实现了90.33%的视觉定位准确率,展示了其在机器人抓取任务中的潜在影响。
🎯
关键要点
-
本研究旨在解决复杂环境中对同一对象的视觉定位与抓取姿态估计不足的问题。
-
提出了HiFi-CS方法,通过分层应用特征线性调制(FiLM)融合图像和文本嵌入。
-
该方法显著提高了开放词汇设置中的视觉定位精度。
-
实验结果显示,该模型在15个桌面场景中实现了90.33%的视觉定位准确率。
-
研究展示了HiFi-CS方法在机器人抓取任务中的潜在影响。
➡️