FusionFormer:鸟瞰视图和时间一致 Transformer 的多感知融合用于 3D 目标
原文中文,约300字,阅读约需1分钟。发表于: 。多传感器模态融合的 FusionFormer 框架通过 transformers 混合多模态特征,获取鸟瞰图特征,并通过可灵活适应输入模态表示的深度预测分支提高相机检测任务的性能,同时提出一种基于 transformers 的即插即用的时域融合模块用于融合历史帧鸟瞰图特征,实现更稳定可靠的检测结果,通过对 nuScenes 数据集的评估,其在 3D 目标检测任务中获得了 72.6%的...
UniTR是一种高效的多模态骨干网络,用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它通过一种模态不可知的转换编码器来处理不同的传感器数据,并提出了一种新颖的多模态融合策略。在nuScenes评测上,UniTR在3D目标检测方面取得了+1.1 NDS的提高,在BEV地图分割方面取得了+12.0 mIoU的提高,并具有较低的推理延迟。