2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveLM、DriveVLM
原文中文,约2300字,阅读约需6分钟。发表于: 。 本文主要涉及以下4篇paper的解读(按发表的时间顺序排列) DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning...
本文解读了四篇paper,其中包括使用大模型进行可解释的端到端自动驾驶的研究。作者使用BDD-X数据集进行训练,该数据集包含视频和标签,用于预测车辆行为。为了增加多样性,作者还创建了自己的数据集,并使用ChatGPT作为教师生成更多关于自车的对话。最终,他们收集了56K视频-文本指令跟随样本,包括16K BDD-X问答和40K由ChatGPT生成的问答。DriveGPT4是一种多功能的多模态大型语言模型,能够处理各种输入类型,包括视频和文本。