结构之法算法之道 ·

2024自动驾驶(多模态)大模型综述：从DriveGPT4、DriveMLM到DriveLM、DriveVLM

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

本文解读了四篇paper，其中包括使用大模型进行可解释的端到端自动驾驶的研究。作者使用BDD-X数据集进行训练，该数据集包含视频和标签，用于预测车辆行为。为了增加多样性，作者还创建了自己的数据集，并使用ChatGPT作为教师生成更多关于自车的对话。最终，他们收集了56K视频-文本指令跟随样本，包括16K BDD-X问答和40K由ChatGPT生成的问答。DriveGPT4是一种多功能的多模态大型语言模型，能够处理各种输入类型，包括视频和文本。

🎯

关键要点

本文解读了四篇关于使用大模型进行可解释的端到端自动驾驶的研究。
作者使用BDD-X数据集进行训练，该数据集包含视频和标签，用于预测车辆行为。
为了增加多样性，作者创建了自己的数据集，并使用ChatGPT生成更多关于自车的对话。
最终收集了56K视频-文本指令跟随样本，包括16K BDD-X问答和40K由ChatGPT生成的问答。
DriveGPT4是一种多功能的多模态大型语言模型，能够处理视频和文本等多种输入类型。
端到端自动驾驶旨在基于视觉输入直接预测车辆路径和控制信号。
BDD-X数据集包含约20,000个样本，提供车辆动作描述、动作理由和控制信号数据。
为了训练LLM，生成了多个同义问题集，以防止模型过拟合。
ChatGPT被用作教师生成关于自车的对话，结合YOLOv8进行物体检测。
DriveGPT4的模型架构能够处理视频和文本输入，并将控制信号解释为一种语言。

❓

延伸问答

DriveGPT4是什么类型的模型？

DriveGPT4是一种多功能的多模态大型语言模型，能够处理视频和文本等多种输入类型。

BDD-X数据集包含哪些信息？

BDD-X数据集包含约20,000个样本，提供车辆动作描述、动作理由和控制信号数据。

如何生成用于训练的问答对？

通过生成同义问题集，并使用BDD-X标签作为答案，形成问答对以训练大模型。

ChatGPT在DriveGPT4的训练中起什么作用？

ChatGPT被用作教师生成关于自车的对话，帮助创建多样化的数据集。

DriveGPT4如何处理视频输入？

视频被均匀采样为固定数量的图像，并使用视频tokenizer将视频帧转换为文本tokens。

端到端自动驾驶的目标是什么？

端到端自动驾驶旨在基于视觉输入直接预测车辆路径和控制信号。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
CatReader 上线：重启 RSS 阅读
CatReader是一款现代RSS阅读器，旨在帮助用户高效获取优质信息。它整合了博客、播客和音频等多种信源，支持智能助手AskCat，根据用户需求提供个性...