Robo2VLM:来自大型野外机器人操作数据集的视觉问答

本研究针对现有视觉语言模型在真实情境下的应用能力不足的问题,提出了一种名为Robo2VLM的视觉问答数据集生成框架。通过利用多模态机器人轨迹数据生成具有空间和交互推理问题的视觉问答查询,研究结果表明Robo2VLM-1能够有效基准测试和提升视觉语言模型在空间和交互推理方面的能力。

本研究提出Robo2VLM框架,生成视觉问答数据集,以解决现有视觉语言模型在实际应用中的不足,增强其空间和交互推理能力。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文