SimpleLLM4AD:基于图像视觉问答的自动驾驶端到端视觉语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。通过利用视觉语言模型 (VLM),我们提出了一种名为 SimpleLLM4AD 的端到端自动驾驶 (e2eAD) 方法,该方法将 e2eAD 任务分为四个阶段,并通过图形视觉问答 (Graph VQA) 将各阶段的 VQA 配对相互连接,逐阶段基于 VLM 对 GVQA 中的每个 VQA 配对进行推理,实现了使用语言进行端到端驾驶,实验结果表明 SimpleLLM4AD 在复杂驾驶场景中具有竞争性能。
本文介绍了如何将视觉-语言模型(VLMs)整合到端到端驾驶系统中,以增强泛化能力和与人类用户的互动。通过建立图结构推理的问答对模型,提出了Graph VQA任务,模拟人类的推理过程。构建了基于nuScenes和CARLA的数据集(DriveLM-Data),并提出了基于VLM的基准方法(DriveLM-Agent)。实验证明Graph VQA为驾驶场景的推理提供了简单和有原则的框架,DriveLM-Data为这一任务提供了具有挑战性的基准。DriveLM-Agent在端到端自动驾驶方面表现出了竞争力,尤其在未见过的对象或传感器配置上进行零样本评估时效果显著。希望这项工作能为将VLMs应用于自动驾驶提供新的启示。