小红花·文摘 - 小红花技术领袖俱乐部

DeepFusion提出了一种模块化的多模态架构，结合激光雷达、相机和雷达进行3D物体检测，实验表明其在远距离检测和激光点密度方面表现优异。研究显示雷达与相机的融合在低能见度条件下提升了自动驾驶的感知能力，RCBEVDet++框架进一步改善了融合性能，对自主驾驶系统的感知能力产生重要影响。

一种资源高效的融合网络用于鸟瞰视图中的目标检测，采用摄像头和原始雷达数据

BriefGPT - AI 论文速递 ·

本文介绍了多个自动驾驶视觉问答（VQA）任务和模型，如NuScenes-QA、Talk2BEV和DriveLM。研究表明，结合多模态架构和图结构推理的模型在驾驶场景中表现优越，提升了推理能力和响应效率。新提出的MiniDrive框架有效解决了计算开销和多图像处理问题，为自动驾驶系统提供了高效解决方案。

LaVida Drive：用于自主驾驶的视觉-文本交互视觉语言模型，具有标记选择、恢复和增强功能

BriefGPT - AI 论文速递 ·

基于大型语言模型的自动驾驶研究显示出潜力，提出了多模态语言模型架构以提升驾驶情境理解。研究评估了大型语言模型在空间识别和交通规则遵守方面的准确性，并开发了DriveMLM框架以实现闭环驾驶。研究还指出当前模型在动态环境中的不足，呼吁改进基础模型以增强适用性。

多模态大语言模型驱动的自动驾驶场景测试

BriefGPT - AI 论文速递 ·

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

机器之心 ·

本文介绍了一种基于变压器的场景文本检测模型，能够有效检测文本并获取边界框。该模型在多个数据集上取得了先进成果，提出了隐式特征对齐方法，提升了多行文本识别能力，并展示了新的多模态架构和文本引导的域泛化框架，增强了文本检测的准确性和效率。

文本分组适配器：为布局分析适配预训练的文本检测器

BriefGPT - AI 论文速递 ·

本文探讨了利用深度强化学习提升自动驾驶性能的方法，包括多模态架构、层次运动规划和可解释性模型。这些方法在复杂驾驶场景中表现优异，有效提高决策性能并减少碰撞，推动自动驾驶技术的发展。

深度强化学习自动驾驶决策的揭秘

BriefGPT - AI 论文速递 ·