EMMA:端到端多模态自动驾驶模型
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了EMMA,一个端到端多模态自动驾驶模型,旨在填补将原始相机传感器数据直接映射为驾驶特定输出的空白。通过将所有非传感器输入和输出表示为自然语言文本,EMMA能够在统一语言空间中共同处理多种驾驶任务,验证了其在运动规划及其他相关任务上的卓越性能。这一研究为自动驾驶模型架构的发展提供了新的视角与潜力。
我们评估了多模态大型语言模型(MLLMs)在自动驾驶中的应用,发现其在动态驾驶场景推理方面存在不足。通过DriveSim模拟器生成多样化场景,提出了新数据集“Eval-LLM-Drive”。研究表明,当前MLLMs在真实动态环境中的应用能力存在显著差距,需改进基础模型。