M2DA:多模态融合 Transformer 结合驾驶员注意力用于自动驾驶
原文中文,约200字,阅读约需1分钟。发表于: 。提出了一种多模态融合变压器,结合驾驶员注意力用于自动驾驶,通过 Lidar-Vision-Attention-based Fusion 模块更好地融合多模态数据,并实现不同模态之间更高的对齐,同时结合驾驶员的注意力,赋予自动驾驶车辆类似于人类的场景理解能力,准确识别复杂场景中的关键区域,确保安全。在 CARLA 模拟器上进行实验,以较少的数据在闭环基准测试中取得了最先进的性能。
本研究使用深度学习和多模态传感器融合技术测试了自动驾驶模型在仿真城市驾驶条件下的性能和通用能力。结果显示该模型在定位和避障等任务上表现优于先前模型,验证了多模态传感器融合和场景理解子任务的协同作用提高了模型的性能和可行性。