MaskFuser: 联合多模态符号化的遮罩融合用于端到端自动驾驶
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种名为 MaskFuser 的多模态驾驶框架,在统一的语义特征空间中将各种模态标记化,并为进一步行为克隆提供联合表示。通过引入跨模态的掩蔽自编码器训练,增强了融合表示。MaskFuser 在伤害感知输入下提高了驾驶稳定性,并在驾驶得分方面表现优于以往的基线模型。
该论文介绍了一种使用Transformer模块在多个分辨率上融合相机和LiDAR数据的方法,有效合并局部和全局上下文关系。实验证实该方法在两个具有长途路线和高密度交通的对抗基准中表现出性能优势,显著提高了驾驶和违规得分。