DeepFusion提出了一种模块化的多模态架构,结合激光雷达、相机和雷达进行3D物体检测,实验表明其在远距离检测和激光点密度方面表现优异。研究显示雷达与相机的融合在低能见度条件下提升了自动驾驶的感知能力,RCBEVDet++框架进一步改善了融合性能,对自主驾驶系统的感知能力产生重要影响。
本文介绍了多个自动驾驶视觉问答(VQA)任务和模型,如NuScenes-QA、Talk2BEV和DriveLM。研究表明,结合多模态架构和图结构推理的模型在驾驶场景中表现优越,提升了推理能力和响应效率。新提出的MiniDrive框架有效解决了计算开销和多图像处理问题,为自动驾驶系统提供了高效解决方案。
基于大型语言模型的自动驾驶研究显示出潜力,提出了多模态语言模型架构以提升驾驶情境理解。研究评估了大型语言模型在空间识别和交通规则遵守方面的准确性,并开发了DriveMLM框架以实现闭环驾驶。研究还指出当前模型在动态环境中的不足,呼吁改进基础模型以增强适用性。
智源研究院与大连理工大学、北京大学等合作推出了新一代无编码器的视觉语言模型EVE。EVE通过去除视觉编码器,能处理任意图像长宽比,并通过精细化的训练策略和额外的视觉监督,在多个视觉-语言基准测试中表现出色,与基于编码器的主流多模态方法相媲美。EVE的提出为纯解码器的原生多模态架构发展提供了一条透明且高效的路径。
本文介绍了一种基于变压器的场景文本检测模型,能够有效检测文本并获取边界框。该模型在多个数据集上取得了先进成果,提出了隐式特征对齐方法,提升了多行文本识别能力,并展示了新的多模态架构和文本引导的域泛化框架,增强了文本检测的准确性和效率。
本文探讨了利用深度强化学习提升自动驾驶性能的方法,包括多模态架构、层次运动规划和可解释性模型。这些方法在复杂驾驶场景中表现优异,有效提高决策性能并减少碰撞,推动自动驾驶技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。