DivScene:基于多样场景和对象对LVLM进行对象导航基准测试
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在未知环境中导航到多种目标对象的问题,之前的研究主要集中在有限的场景类型和目标对象上。新提出的DivScene数据集包含4,614个场景和81种不同类型,为LVLM的导航任务提供了基准。通过模仿学习,我们构建的NatVLM代理在自动生成动作方面展现出优越性能,其成功率超越GPT-4o超过20%。
本研究解决了在未知环境中导航到多种目标的问题。DivScene数据集包含4,614个场景和81种目标类型,为LVLM导航任务提供基准。通过模仿学习,NatVLM代理在自动生成动作方面表现出色,成功率比GPT-4o高出20%以上。