DriveLM: 基于图像问答的驾驶
原文中文,约600字,阅读约需2分钟。发表于: 。我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型(VLMs)整合到端到端驾驶系统中,以增强泛化能力,并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型,我们提出了 Graph VQA 任务,以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集(DriveLM-Data),并提出了一个基于 VLM...
本文研究了将视觉-语言模型整合到驾驶系统中的方法,以增强泛化能力和与用户的互动。通过建立图结构推理的问答对模型,提出了Graph VQA任务。实验证明Graph VQA为驾驶场景的推理提供了简单和有原则的框架。希望这项工作能为将VLMs应用于自动驾驶提供新的启示。